مدیریت کامل حوادث در ITSM
بهترین تمرینات برای حل موثر حوادث مهم در فناوری اطلاعات و ارتباطات
اگر مدیر انفورماتیک سازمانی هستید تشخیص اینکه چه حادثه ای بزرگ است و چه حادثه ای کوچک؟ و یا کدام اتفاق مهم است و چه اتفاقی عادی!؟ نیازمند بررسی موردی و تحقیقات پیرامونی بسیاری است همین بررسی موردی و تحقیقات پیرامونی بی تردید زمانبر خواهد بود شما با شناسایی سرویس ها و خدمات موثر و کلیدی سازمان براحتی از روی تاثیر حوادث بر کسب و کار به اهمیت و بزرگی آن پی خواهید برد و نیازی به بررسی دقیق تر برای تشخیص بزرگی هر حادثه ای ندارید مثلا از کار افتادن ماوس یک کاربر تاثیر آنچنانی روی کسب و کار سازمان نمی گذارد اما اگر وب سایت یا تنها درگاه ارتباط با مشتری سازمان از کار بیافتد یعنی فاجعه! محسوب می شود پس بنابراین پرداختن به حوادث مهم امری کلیدی در مدیریت حوادث[۱] است.
حوادث مهم، تنش زا هستند. اکثر حوادث مهم ناشی از سلسله تغییرات ناآگاهانه قبلی است! و گاهی نیز برای بار نخست است که اتفاق می افتد. بنابراین بزرگی یا مهم بودن یک حادثه به تأثیر آن بر روی کسب و کار باز می گردد.
اگرچه هر حادثه ای کوچکی و گاهاً به ظاهر کم اهمیت هم می تواند به سرعت یک تنش بسیار بزرگی را به دنبال داشته باشد. در جهان فناوری نیز یک حادثه یا وقفه ای چند لحظه ای می تواند کل عملکرد یک سازمان را زیر سوال ببرد بنابراین تمامی حوادثی که در روز در سازمان رخ می دهند هر کدام می توانند فاجعه ای به بار آورند و تنش زا باشند بخصوص حوادثی که به مسائل فناوری اطلاعات مربوط هستند زیرا این دست از حوادث مستقیما بر روند عملیات و نتایج تجاری هر کسب و کاری تأثیر منفی می گذارد. ITIL 4 این دست از حوادث را به عنوان "حادثه ای با تاثیر قابل توجه در کسب و کار، که نیاز به یک راه حل فوری دارد" تعریف می کند.
خیلی از تأثیراتی که بر کسب و کار احساس می شوند علاوه بر بار حیثیتی، بار مالی بهمراه دارد بنابراین حوادث مهم نه تنها دارایی های سازمان را به خطر می اندازد بلکه سبب تحمیل هزینه های بسیاری نیز خواهد کرد که یا از جیب می رود یا از آبرو!
مثلا کسب و کار یک فروشگاه اینترنتی یک وب سایت است! در دسترس نبودن وب سایت، هک شدن، کندی و... حتی در کسری از ثانیه یک تنش بسیار بزرگ است و یا اینکه نرم افزار تولید یک کارخانه لحظه ای از کار بیفتد یعنی فاجعه در تولید... پس اهمیت رسیدگی به چنین حوادثی در این نوع بسیار ضروری است.
در یک نمونه ظاهری در یک شرکت، بدلیل نوسان برق و عدم اتصال سیستم های کاربران برق UPS در آن واحد بیش از ۱۰۰ دستگاه پاور کیس سوخت و کل فروش آن سازمان بطور کل مختل شد!
یا مثلا وجود یک نقص فنی در سیستم تعلیق خودرو در یک شرکت خودرویی منجر به فاجعه آتش سوزی خودروها در سرعت بالا می شد.
در این مبحث، شیوه ای برای مدیریت حوادث تنش زا به طور موثر ارایه خواهم کرد که در بردارنده چندین نکته کلیدی برای مدیریت بهتر اتفاقات بزرگ است.
1. حقایق را بررسی کنید!
اولین کاری که هنگام برخورد با حوادث مهم باید انجام دهید این است که مطئمن شوید که همه حقایق را دارید بررسی می کنید برای این موضوع باید فهرستی از پرسشهای کلیدی را مطرح کنید و یافته های خود را در ارتباط با حادثه رخ داده شده مستند نمایید:
- چه تاثیری بر روی کسب و کار می گذارد؟
- چه خدماتی تحت تاثیر قرار می گیرد؟
- چه گروهی از کاربران تحت تاثیر قرار می گیرند؟ آیا بخش یا مکان مشخصی است یا کل کاربران سازمان متاثر از این حادثه هستند؟
- کدام گروه کارشناسان پشتیبانی متولی رسیدگی به این حادثه هستند؟ آیا ما افراد مناسب را درگیر کرده ایم؟
- آیا همه در امنیت هستند؟ اول از همه، مراقب کاربران خود باشید و اطمینان حاصل کنید که همه از خطر احتمالی دور هستند. به ویژه اگر این حادثه مربوط به چیزی مانند سرقت اطلاعات ژنراتور، تعمیر و نگهداری UPS، و یا چاه ارت.
- آیا باید تیم های پشتیبانی دیگر را آگاه کنیم؟
- این حادثه ناشی از چه اتفاقی است آیا ناشی از یک یا مجموعه ای از فعالیت های تغییرات قبلی است؟
- آیا پیش از این راهکار یا خطا شناخته شده و مستندی داشته ایم؟
- آیا برای رسیدگی و رفع حادثه به پشتیبانی شخص ثالث (نظیر پیمانکاران) نیاز داریم؟
- آیا باید به مشتریان پیشین نیز اطلاع دهیم؟
- آیا این حادثه ناشی از نقص امنیتی است و باید سطح امنیتی را افزایش دهیم؟
- آیا سرویس میز خدمت IT قادر به مقابله با حجم فعلی تماس های مرتبط است؟
- مدت زمان بازگردانی وضعیت فعلی به حالت عادی چقدر است؟
- زمان واقعی برای به روز رسانی چه هنگامی است؟
چک لیست اولیه حادثه هک شدن وب سایت سازمان | |
ارزیابی حقایق حادثه | پاسخ |
چه تاثیری بر روی کسب و کار می گذارد؟ | بسیار زیاد |
چه خدماتی تحت تاثیر قرار می گیرد؟ | کلیه خدمات ارتباط با مشتری و فروش آنلاین |
چه گروهی از کاربران تحت تاثیر قرار می گیرند؟ | تمامی کاربران واحد فروش تمامی مشتریان سازمان |
گروه کارشناسان مرتبط | کارشناسان پشتیبانی |
آیا همه در امنیت هستند؟ | خیر اطلاعات و دیتاهای کاربران در معرض تهدید به سرقت است! |
اطلاع رسانی به سایر تیم های پشتیبانی؟ | کارشناسان تولید کارشناس زیرساخت |
این حادثه ناشی از چه اتفاقی است آیا ناشی از یک یا مجموعه ای از فعالیت های تغییرات قبلی است؟ | تغییر شرکت ارایه دهنده هاست |
آیا پیش از این راهکار یا خطا شناخته شده و مستندی داشته ایم؟ | خیر برای بار نخست است که اتفاق می افتد |
آیا برای رسیدگی و رفع حادثه به پشتیبانی شخص ثالث (نظیر پیمانکاران) نیاز داریم؟ | بله شرکت ارایه دهنده هاستینگ وب سایت |
آیا باید به مشتریان پیشین نیز اطلاع دهیم؟ | نیازی نیست. |
آیا این حادثه ناشی از نقص امنیتی است و باید سطح امنیتی را افزایش دهیم؟ | بله یک باگ امنیتی در سطوح دسترسی های هاستینگ شناسایی شده |
آیا سرویس میز خدمت IT قادر به مقابله با حجم فعلی تماس های مرتبط است؟ | باتوجه به سیستم اطلاع رسانی حجم درخواست های ورودی قابل کنترل است |
مدت زمان تخمینی بازگردانی وضعیت فعلی به حالت عادی چقدر است؟ | حداکثر ۲ ساعت |
زمان واقعی برای به روز رسانی چه هنگامی است؟ | ظرف یکماه آینده |
اصول اولیه را تحت پوشش قرار دهید تا از مسله بدقت آگاهی یابید و بتوانید به همه (یا حداقل) سؤالاتی که توسط مشتری (ها) و مدیریت ارشد از شما پرسیده خواهد شد، به درستی پاسخ دهید.
ادامه مطلب در صفحه بعد…
[…] مقاله مرتبط: مدیریت کامل حوادث در ITSM […]
[…] مدیریت کامل حوادث در ITSM […]
[…] مدیریت کامل حوادث در ITSM […]
[…] مدیریت کامل حوادث در ITSM […]
[…] مدیریت کامل حوادث در ITSM […]
[…] مدیریت کامل حوادث در ابزار ITSM […]