در این مقاله می خوانید:

  1. مدیریت حوادث مهم: یک مرور کلی
  2. یک حادثه بزرگ چیست؟
  3. چهار مرحله از یک حادثه بزرگ
  4. مهم‌ترین فرایند مدیریت حوادث
  5. نمودار جریان فرایند مدیریت حوادث ITIL®
  6. نقش‌ها و مسئولیت‌های مهم مدیریت حوادث بزرگ کدامند؟
  7. اشتباهات رایج در مدیریت حوادث بزرگ
  8. بهترین تمرین برای مدیریت حوادث
  9. معیارهای مهم مدیریت حوادث و KPI ها
  10. بررسی سناریوی حادثه بزرگ

مدیریت حوادث بزرگ: یک مرور کلی

صبح روز شنبه است و همه‌چیز ظاهراً در میز خدمات سازمان شما کاملاً عادی است. ناگهان، شما یک تیکت هشدار دریافت می‌کنید که یک سرویس حیاتی از کار افتاده و در عرض ۱۵ دقیقه‌ی آینده شما مورد آماج هجوم تیکتهایی میشوید که همان موضوع را گزارش می‌دهند. این می‌تواند این باشد که وب‌سایت شما ازکارافتاده است، نرم‌افزار فروش متوقف‌شده است، یا چیزی حتی گسترده‌تر، مانند سقوط بورس اوراق بهادار یا سقوط هواپیما. هنگامی‌که کسب‌وکار شما به‌شدت تحت تأثیر قرار می‌گیرد یک مسئله فناوری اطلاعات باعث از دست دادن درآمد و یا شهرت سازمان میشود و این یعنی، شما یک حادثه بزرگ در دست خود دارید.

نحوه واکنش شما به یک حادثه بزرگ: تفاوت‌ها در به حداقل رساندن تأثیر حادثه و بازگرداندن خدمات است.

می‌گویند، زمان پول است اما در این مورد بحرانی بخصوص، این نمی‌تواند خیلی درست باشد. زمان در این حالت چیزی فراتر از پول است!

اگر سازمان شما یک فرایند مدیریت حوادث عمده (MIM) یاMajor Incident Management  ندارد شما نمی‌توانید به‌سرعت به حوادث بزرگ پاسخ و آن را حل‌وفصل کنید. اگر چنین فرایندی را در محل ندارید، وقت آن است که یک برنامه واکنش اضطراری تهیه کنید، تا به‌عنوان یک فرایند پاسخ به حادثه بزرگ شناخته ‌شود.

خطرات یک حادثه بزرگ بالاتر از هر چیزی است تصوور کنید صدها سرویس عالی ارایه میکنید اما یک حادثه بزرگ تمام زحماتتان را میسورد و میبرد.

طبق مطالعه‌ای که توسط مشاوره اطلاعات فناوری اطلاعات انجام‌شده، ۹۸ درصد از سازمان‌ها بطور میانگین حداقل ۵۰٫۰۰۰٫۰۰۰ تومان فقط در یک ساعت خرابی از دست می‌دهند. بنابراین میشود جلوی این ضرر هنگفت مالی را هم گرفت اگر اهمیت ایجاد یک فرایند MIM را به‌طور مؤثر و کارآمد برای مقابله با حوادث بزرگ درک کرده باشید.

هر سازمانی قصد دارد حوادث بزرگ را از بین ببرد، اما جلوگیری از حوادث بزرگ به‌طور کامل غیرممکن است و تنها کاری که می‌توانید انجام دهید این است که برای آن‌ها آماده‌ باشید.

در این راهنما، ما به چگونگی راه‌اندازی یک فرایند MIM مؤثر، اشتباهات رایجی که می‌تواند بر MIM سازمان شما تأثیر بگذارد و بهترین تمرینات برای بهبود فرایند MIM نگاهی مفصل انداخته‌ایم.

اما اول، چه چیزی یک حادثه را به یک حادثه بزرگ تبدیل می‌کند؟

یک حادثه بزرگ چه حادثه ای است؟

یک حادثه بزرگ یک مسئله فوری و با تأثیر بالا است که معمولاً کل سازمان یا بخش عمده‌ای از آن را تحت تأثیر قرار می‌دهد.

یک حادثه بزرگ تقریباً همیشه منجر به در دسترس رفتن خدمات سازمان می‌شود، که باعث می‌شود کسب‌وکار لطمه شدیدی بخورد و درنهایت بر جایگاه مالی و شهرت و شیوه ارایه خدمت آن تأثیر می‌گذارد.

چهار مرحله از یک حادثه بزرگ

حوادث بزرگ(عمده) دارای ۴ مرحله اصلی هستند، یعنی:

  • شناسایی
  • مهار
  • وضوح
  • نگهداری

مهم‌ترین فرایند مدیریت حوادث

فرایند مدیریت حادثه بزرگ برای سازمان‌ها بسیار حیاتی و ضروری است، زیرا به آن‌ها کمک می‌کند تا تأثیر کسب‌وکار یک حادثه بزرگ را به حداقل برسانند. فرایند اصلی مدیریت حادثه در درجه اول شامل مراحل زیر است:

مرحله ۱: شناسایی

اعلام حادثه بزرگ:

اولین قدم، شناسایی حوادث احتمالی است. برای سازمان‌ها مهم است که روش‌های متعددی برای شناسایی تهدیدات داشته باشند. حوادث بزرگ را می‌توان توسط تکنسین‌ها پرچم گذاری کرد، زمانی که آن‌ها در سراسر شبکه مورد آماج تیکت های غیرمعمول قرار می‌گیرند، یا توسط کارشناسن NOC که ناظر ابزارهای نظارت بر شبکه هستند میتواند شناسایی شود یا به‌طور خودکار یک ابزار قاردست یک مسئله شبکه را پرچمگذاری کند و یک تیکت برای هشدار دادن به میز خدمات ارسال نماید. سازمان‌ها همچنین می‌توانند یک خط تلفن اختصاصی برای کارکنان میز خدمات ایجاد کنند برای نشان دادن حوادث بزرگ مشکوک.

اطلاع‌رسانی به ذینفعان:

هنگامی‌که یک حادثه بزرگ شناسایی‌شد، باید به تمام ذینفعان کلیدی اطلاع داده شود. چهار گروه اصلی وجود دارد که باید از حوادث مهم مطلع شوند:

  • تیم فنی: مهم است که بلافاصله به تیم فنی اطلاع دهید تا بتوانند تصمیم‌گیری در مورد یک دوره اقدام برای رفع مشکل را شروع کنند.
  • مدیریت: مطلع نگه‌داشتن مدیریت ارشد سازمان یا مدیریت ارشد فناوری اطلاعات: مانند CIO، در مورد حوادث بزرگ به پاسخگویی کمک می‌کند. سازمان‌ها باید مدیریت را از تمام اقدامات انجام‌شده برای رفع حوادث بزرگ مطلع کنند.
  • ذینفعان کلیدی: مدیران و رؤسای بخش و کارکنان کسب‌وکار در سطح خدمات نیز باید از حوادث عمده مطلع شوند و به‌روزرسانی‌های منظم وضعیت را دریافت کنند.
  • کاربران: کاربران باید بدانند که کدام خدمات ممکن است به دلیل یک حادثه بزرگ در دسترس نباشد.

مرحله ۲: مهار

جمع‌آوری تیم حادثه بزرگ

تیم مدیریت حادثه بزرگ MIT یا Major Incident Team باید فوراً گرد هم بیایند. این تیم به‌طور خلاصه شامل خود مدیر حادثه بزرگ، تکنسین‌ها، مدیران سطح خدمات و سایر ذینفعان کلیدی است. گاهی اوقات کارکنان خارجی بسیار ماهر برای مقابله با یک حادثه بزرگ آورده می‌شوند. MIT باهم آنان برای یافتن یک راه‌حل برای حادثه بزرگ و بازگرداندن عملیات به حالت عادی کار میکند و این نقش مهم برای اوست.

راه‌اندازی یک پل کنفرانس

یک پل کنفرانس، که بیشتر به‌عنوان یک کنفرانس تلفنی شناخته می‌شود، به عیب‌یابی مؤثر و ارتباطات متمرکز کمک می‌کند. این به‌عنوان یک کانال ارتباطی روشن و سریع بین اعضای MIT عمل می‌کند.

آماده‌سازی یک اتاق جنگ تعیین‌شده

داشتن یک اتاق جنگ تعیین‌شده به همه اعضای MIT اجازه می‌دهد تا این حادثه را جمع‌آوری و عیب‌یابی کنند. این امر تلاش‌های همکاری را افزایش می‌دهد و به MIT کمک می‌کند تا سریع‌تر راه‌حلی پیدا کند.

ایجاد یک تیکت مشکل برای شناسایی مسائل اساسی

یک تیکت مشکل می‌تواند برای کشف و درک علت اصلی حادثه بزرگ ایجاد شود. این می‌تواند به جلوگیری از حوادث بزرگ مشابه در آینده با پرداختن به علل حادثه بزرگ کمک کند.

مرحله ۳: Resolution

اجرای طرح Resolution به‌عنوان یک تغییر

این یک عمل خوب برای اجرای اصلاح حادثه بزرگ به‌عنوان یک تغییر است تا اطمینان حاصل شود که قطعنامه به‌درستی مستند و اجرا می‌شود. اجرای قطعنامه به‌عنوان یک تغییر، خطر اختلال در حل‌وفصل شکست‌خورده را به حداقل می‌رساند.

مرحله ۴: تعمیر و نگهداری

انجام یک بررسی پس از پیاده‌سازی

مهم است که این حادثه را در یک دوره زمانی ارزیابی کنید تا مطمئن شوید که واقعاً حل‌شده است. اگر مسائل اساسی حل‌نشده باقی بماند، می‌تواند منجر به یک حادثه بزرگ دیگری شود.

تولید مستندات روشن

مستندسازی کل فرایند حل‌وفصل حادثه بزرگ به سازمان کمک می‌کند تا برای حوادث مشابه در آینده آماده شود. با مستندسازی مناسب حوادث گذشته، سازمان می‌تواند راه‌حل آزمایش‌شده و آزمایش‌شده را اجرا کند. آن هم بلافاصله پس از مواجهه با یک حادثه بزرگ مشابه.

معیارهای اندازه‌گیری

اندازه‌گیری عملکرد میز خدمات به اندازه‌گیری اثربخشی آن و فرایند MIM کمک می‌کند. برخی از معیارهای مهم برای اندازه‌گیری عبارت‌اند از میانگین زمان برای تأیید (MTTA)، میانگین زمان برای حل‌وفصل (MTTR)، تعداد کل حوادث بزرگ و متوسط خرابی برای حوادث بزرگ.

نمودار جریان فرایند مدیریت حوادث ITIL®

نقش‌ها و مسئولیت‌های مهم مدیریت حوادث

یک حادثه بزرگ خواستار یک گروه ویژه از کارکنان برای مقابله با این حادثه و حل آن است. نقش‌های MIM عبارت‌اند از:

تکنسین‌های میز خدمات

تکنسین‌های میز خدمات اولین خط مقدم در برابر حوادث بزرگ هستند. آن‌ها تیکت های حادثه را تجزیه‌وتحلیل می‌کنند و به مدیر حادثه ارجاع میدهند و یا تشدید میکنند. تکنسین‌های میز خدمات نیز در اجرای قطعنامه‌ها دخیل هستند.

مدیر حادثه بزرگ

مدیر حادثه بزرگ، مالک حادثه بزرگ است. نقش او شامل اعلام حادثه به‌عنوان یک حادثه بزرگ و اطمینان از اینکه فرایند MIM دنبال می‌شود و حادثه در اسرع وقت حل می‌شود. او به‌عنوان نقطه اصلی تماس برای هرگونه اطلاعات در مورد حادثه بزرگ، و مدیریت MIT نقش خود را ایفا میکند.

MIT

MIT یک تیم تخصصی است که مسئول تجزیه‌وتحلیل حادثه بزرگ و تدوین یک برنامه عملی برای مقابله با تهدید است. MIT ایدئال شامل تکنسین‌های میز خدمات، کارکنان مدیریت سطح خدمات، فنی است کارکنان، سایر ذینفعان مربوطه و مشاوران خارجی در صورت نیاز به آن.

کارکنان فنی

کارکنان تخصصی که مسئول نگهداری زیرساخت‌ها و عملیات هستند، ازجمله مدیران سیستم، مدیران شبکه و کارکنان امنیت اطلاعات، که کارکنان فنی سازمان را تشکیل می‌دهند. فنی کارکنان به عیب‌یابی حادثه اصلی کمک می‌کنند و در درجه اول مسئول اجرای قطعنامه اصلی حادثه هستند.

مدیر تغییر

مدیر تغییر مالک تغییری است که برای اجرای اصلاح حادثه بزرگ ایجادشده است. مدیر تغییر مالکیت کامل تیکت تغییر را به عهده می‌گیرد و مسئول آن است.

مدیر مشکل

اگر مشکلی در پاسخ به حادثه بزرگ ایجاد شود، مدیر مشکل صاحب تیکت مشکل است. مدیر مشکل سعی می‌کند علل ریشه‌ای حادثه را مشخص کند و اطمینان حاصل کند که دوباره اتفاق نمی‌افتد یا سازمان حداقل برای دفعه بعد که حادثه رخ می‌دهد آماده است.

مشاوران خارجی یا فروشندگان شخص ثالث

در برخی موارد، حادثه بزرگ ممکن است نیاز به کارکنان بسیار متخصص برای کمک به درک و عیب‌یابی حادثه داشته باشد. مدیر حادثه اصلی کارکنان موردنیاز را شناسایی می‌کند و آن‌ها را به MIT اضافه می‌کند تا به کاهش تأثیر کمک کند. از حادثه بزرگ

بعبارتی برای یک حادثه بزرگ شما درگیر ۳ تمرین از ITIL میشوید: تمرین مدیریت حادثه- تمرین مدیریت مشکل و تمرین مدیریت تغییر.

ماتریس RACI

در ITIL یک ماتریس وجود دارد بنام ماتریس RACI . این ماتریس RACI مسئولیت‌های ذینفعان مختلف را در یک فرایند تعریف می‌کند. ماتریس RACI یک ابزار ساده و مؤثر برای تعریف نقش‌ها و مسئولیت‌های پروژه است که یک نمودار یا جدول جامع از اینکه چه کسی مسئول responsible، پاسخگو: Accountable، مشاور: Consultedو مطلع: Informed  در هر مرحله را ارائه می‌دهد.جدول زیر نقش‌ها و مسئولیت‌های ذینفعان اصلی حادثه را در طول فرایند MIM تعریف می‌کند.

فرایند / نقش‌هاتکنسین‌های میز خدماتمدیر حادثه بزرگMITکارکنان فنیمدیر تغییرمدیر مشکلمشاوران خارجی
شناسایی
اعلام حادثه بزرگCARCIII
اطلاع‌رسانی به ذینفعانCARIIII
مهار
جمع‌آوری MITIR / ACCICI
راه‌اندازی یک پل کنفرانسIARCICI
آماده‌سازی یک اتاق جنگ تعیین‌شدهIARIICI
ایجاد یک مشکل برای شناسایی مسائل اساسیIARCIII
وضوح
اجرای طرح Resolution به‌عنوان یک تغییرIIIRACC
نگهداری
انجام بررسی پس از پیاده‌سازیICIRACI
تولید مستندات روشنCARCCCC
معیارهای اندازه‌گیریIARIIIC

* R – مسئول، A – پاسخگو، C – مشاور، I – مطلع

۵ اشتباه رایج در مدیریت حوادث بزرگ

در اینجا ۵ اشتباه رایج وجود دارد که می‌تواند مانع فرایند MIM شما شود:

  1. ارتباطات و تشدید وخامت ارتباطات

بزرگ‌ترین چالش برای MIM ارتباطات است. در صورت وقوع یک حادثه بزرگ، ذینفعان مختلف باید از وضعیت حادثه، شدت آن و اینکه چه عیب‌یابی برای رفع آن انجام‌شده است، مطلع شوند. برقراری ارتباط با همه این‌ها یک کار دشوار است و می‌تواند منجر به ارتباطات متناقض شود که فقط اوضاع را بدتر می‌کند. با خودکار سازی فرایند، ذینفعان کلیدی در طول کل عمر تیکت مطلع می‌شوند و مدیر حادثه بزرگ می‌تواند تمام توجه خود را بر رفع مسئله متمرکز کند.

  • کانال‌های بی‌اثر برای گزارش حوادث بزرگ

هر میز خدمتی روزانه ده ها یا حتی صدها تیکت دریافت می‌کند، از مسائل مربوط به لپ‌تاپ تا درخواست خدمات. در میان این کوه بزرگی از درخواست‌ها، ممکن است چند حادثه بزرگ بالقوه وجود داشته باشد. راه‌اندازی یک یا چند کانال جداگانه گزارش حوادث بزرگ، شناسایی حوادث بزرگ را به تأخیر نمی‌اندازد.

  • تکرار تلاش‌ها

عدم واگذاری وظایف به شیوه‌ای سازمان‌یافته می‌تواند باعث تکرار تلاش‌ها در MIT شود. مهم است که وظایف را اختصاص دهید و MIT را ازآنچه هر عضوش باید با آن کار ‌کند مطلع کنید.

  • مستندات ضعیف

فقدان مستندات مناسب، MIT را مجبور می‌کند تا هر بار که یک حادثه بزرگ مشابه رخ می‌دهد، چرخ را دوباره اختراع کند، که منجر به تأخیر در حل‌وفصل حوادث بزرگ و ایجاد خرابی غیرضروری می‌شود.

  • عدم تجزیه‌وتحلیل علت ریشه‌ای

مشابه مدیریت حادثه، MIM می‌تواند در محدوده نزدیک‌بینی باشد، زیرا تمرکز اصلی آن این است که مشکل را حل کند و خدمات را در کوتاه‌ترین زمان ممکن اجرا کند. اگر با مدیریت مشکل برای شناسایی مسائل اساسی ترکیب نشود، علت اصلی یک حادثه بزرگ همچنان سازمان را در برابر حوادث بزرگ آسیب‌پذیر می‌کند. و این زخم کهنه بر بدن سازمان باقی میماند.

۵ بهترین تمرین مدیریت حوادث بزرگ

در اینجا بهترین راه برای نزدیک شدن به فرایند MIM وجود دارد

  1. فعال‌سازی چندین کانال برای گزارش حوادث بزرگ

وقتی صحبت از رسیدگی به حوادث بزرگ می‌شود، زمان بسیار مهم است. برای سازمان‌ها بسیار اهمیت دارد که حوادث عمده را به‌محض شناسایی و طبقه‌بندی کنند. ارائه راه‌های متعدد به کاربران برای گزارش حوادث را کل فرایند سریع‌تر و قابل‌دسترس‌تر است. شما می‌توانید ایجاد تیکت را از طریق ایمیل یا پورتال وب فعال کنید یا حتی یک خط تلفن اختصاصی برای گزارش حوادث مشکوک ایجاد کنید. راه‌اندازی نرم‌افزار نظارت بر شبکه برای تشخیص ناهنجاری‌ها می‌تواند به شما کمک کند تا فعالانه با حوادث بزرگ مقابله کنید.

  • فرایندهای میز خدمت را خودکار کنید

سرعت و کارایی، نقش مهمی در کنترل تأثیر یک حادثه بزرگ ایفا می‌کند و خودکارسازی فرایندهای مختلف میز خدمات با آزاد کردن تکنسین‌های خود از وظایف تکراری مانند اطلاع‌رسانی به ذینفعان به دستیابی به این هدف کمک می‌کند. خودکارسازی سیستم اطلاع‌رسانی و راه‌اندازی جریان‌های اصلی حادثه، راه‌های خوبی برای خودکارسازی فرایندهای میز خدمات برای بهبود زمان حل و ایجاد ساختار به فرایند MIM شما است.

  • تلاش برای ارتباطات سریع و مرتبط

مهم است که مدیریت سازمان و ذینفعان مهم خود را از هر حادثه مهم مطلع کنید. نگه‌داشتن مدیریت در حلقه ارتباط گرفتن تصمیمات فوری و یا تأییدیه‌های لازم و مجوز موردنیاز منجر به رفع سریع مشکل می شود.

حادثه بزرگ ارتباط سریع را تضمین می‌کند که تمام کارکنان حادثه اصلی در یک صفحه هستند و اجازه می‌دهد تا برای همکاری صاف و مؤثر آماده باشند و همچنین کاربران نهایی را از هرگونه خرابی احتمالی مطلع می‌کند.

  • ایجاد مستندات واضح

مستندات روشن به مدیر حادثه اصلی کمک می‌کند تا تمام کارهای انجام‌شده برای رفع حادثه بزرگ، تأثیرش، خدمات آسیب‌دیده و سایر اطلاعات کلیدی در مورد حادثه بزرگ را ثبت کند. این مستندات مهم است برای نشان دادن مدیریت مزایای داشتن یک فرایند MIM، ازجمله ROI آن.

علاوه بر این اسناد روشن نیز با هر حادثه بزرگ مشابه در آینده کمک خواهد کرد.

  • استفاده از ادغام عمیق با نرم‌افزار ITOM

ادغام قوی میزخدمت با نرم‌افزار ITOM بخش فناوری اطلاعات را قادر می‌سازد تا به‌طور فعال حوادث عمده را اداره کنند. شناسایی حادثه بزرگ واکنشی متکی به هجوم تیکت برای بالا بردن پرچم قرمز است که یک حادثه بزرگ در حال پیشرفت است. از سوی دیگر، یک فرایند MIM فعال که از ادغام ITOM استفاده می‌کند، سیستم‌هایی برای نظارت بر شبکه‌ها و خدمات دارد و می‌تواند به‌طور خودکار ناهنجاری‌هایی را که می‌تواند حوادث بالقوه بزرگ باشد، پرچم گذاری کند.

معیارهای مهم مدیریت حوادث و KPI ها

هنگامی‌که به MIM می‌آید، در زیر برخی از معیارهای مهم و KPI ها برای پیگیری وجود دارد.

KPIفرمولنظرات
میانگین زمان برای حل‌وفصل  (MTTR)متوسط زمان از زمانی که یک حادثه بزرگ گزارش می‌شود تا زمانی که حل می‌شود.این نشان می‌دهد که میز خدمات شما با چه سرعتی می‌تواند حوادث بزرگ را حل کند. MTTR کوتاه‌تر نشانه این است که MIT شما مؤثر و کارآمد است.
میانگین زمان برای تصدیق  (MTTA)متوسط زمان برای پاسخ به یک حادثه بزرگMTTA کوتاه‌تر نشانه این است که میز خدمات شما سریع به حوادث بزرگ پاسخ می‌دهد.
میانگین زمان بین شکست  (MTBF)متوسط زمان بین شکست‌ها این با تقسیم کل زمان اپ تایم بر تعداد کل شکست‌ها محاسبه می‌شود.این نشان‌دهنده عملکرد زیرساخت IT شما است. MTBF بالاتر نشانه این است که زیرساخت IT شما به‌خوبی عمل می‌کند.
میانگین زمان تشخیص  (MTTD)متوسط زمان لازم برای شناسایی حوادث بزرگ یا ناهنجاری‌ها.این شاخص نیز اندازه‌گیری می‌کند که چقدر سریع یک حادثه بزرگ شناسایی می‌شود. MTTD کوچک‌تر نشانه این است که میز خدمات برای شناسایی حوادث بزرگ سریع هستند.
درصد افزایش یا کاهش  حوادث بزرگدرصد افزایش مشکلات در ماه‌های بعد نسبت به ماه اول.این به شما کمک می‌کند تا روند وقوع حوادث بزرگ را شناسایی کنید.

سناریوهای حادثه بزرگ

دو سناریو زیر، حوادث بزرگی بودند که بر خدمات سازمان تأثیر عمیقی گذاشت:

  • در ژوئیه ۲۰۱۹ قطعی سرویس Cloudflare سبب از دسترس خارج شدممشتریان به خدمات سازمان شد که تحت تأثیر یک حادثه بزرگ قرارگرفته‌اند. این قطعی بزرگ تقریباً نیمی از اینترنت را تحت تأثیر قرار داد و طی آن میلیون‌ها کاربر اینترنت قادر به دسترسی به خدمات مختلف نشدند.
  • در نوامبر ۲۰۱۹ نیز قطعی سرویس در یک شرکت هواپیمایی بنام IndiGo سبب مختل شدن توانایی کارکنان برای تکمیل به‌موقع کارهایشان شد و منجر به اختلال وسیعی در کسب‌وکار گردید و درنهایت سبب تأخیرهای طولانی هزاران مسافر شد.

مهم است که به یاد داشته باشید که همه حوادث با اولویت بالا حوادث بزرگ نیستند. ازآنجاکه فرایند MIM شامل تعهد قابل‌توجهی از منابع مانند اجرای MIT جداگانه است، مهم است که حوادث عمده را با دقت طبقه‌بندی کنیم.

قطع Cloudflare 2019 نمونه بسیار خوبی ازآنچه یک حادثه بزرگ را تعریف می‌کند. در این مورد، قطع برق منجر به کاهش ۸۰ درصد از ترافیک Cloudflare شد و میلیون‌ها کاربر اینترنت را در سراسر دنیا تحت تأثیر قرار داد.

تأثیر: بزرگ

قطع برق باعث شد مشتریان Cloudflare (و مشتریان آن‌ها) هنگام بازدید از هر دامنه Cloudflare یک صفحه خطای ۵۰۲ را مشاهده کنند. خطاهای ۵۰۲ توسط سرورهای وب Cloudflare که هنوز هسته CPU در دسترس داشتند، ایجاد شد. اما قادر به دسترسی به فرایندهایی که ترافیک HTTP / HTTPS را ارائه می‌داند، نبودند. تخمین زده می‌شود که حداقل نیمی از کل اینترنت برای بیست‌وهفت دقیقه خرابی غیرقابل‌دسترسی بود.

فوریت: بالا

تمام وب‌سایت‌های Cloudflare غیرقابل‌دسترس بودند و باعث اختلال در خدمات برای هزاران سازمان و میلیون‌ها کاربر شدند. قطع برق عملیات داخلی Cloudflare را نیز تحت تأثیر قرار داد و مانع از دسترسی کارکنان Cloudflare شد. خدمات مختلف مانند ابزار مدیریت تغییر شرکت و کنترل پنل داخلی. قطع برق باید برای ازسرگیری عملیات خدمات عادی انجام شود.

جدول زمانی رویدادها از تشخیص تا تفکیک:

ابزارهای عملیات شبکه Cloudflare شروع به پرچم گذاری کاهش ترافیک کردند، بسیاری از آزمایش‌های دیگر خدمات Cloudflare شروع به شکست کردند، کاربران نهایی متوجه شدند خطاهای ۵۰۲ و Cloudflare گزارش‌های بسیاری از خستگی CPU را از نقاط حضور خود در شهرهای سراسر جهان دریافت کرد.

تیم مهندسی قابلیت اطمینان دفتر مرکزی، تیم مهندسی لندن و سایر تیم‌های مربوطه برای عیب‌یابی و رفع مشکل گرد هم آمدند. و ظرف سه دقیقه و در ساعت ۱۴:۰۰، علت این حادثه شناسایی شد. و در ساعت ۱۴:۰۷ سرویس برای بازگرداندن سطح ترافیک به حالت عادی اجرا شد.

در ساعت ۱۴:۵۲، Cloudflare ۱۰۰ درصد راضی بود که علت قطع برق را درک کرده و یک تعمیر در محل داشته باشد، بنابراین سرویس WAF این شرکت دوباره در سطح جهانی فعال شد.

واژه‌نامه

  • تغییر

اضافه کردن، اصلاح یا حذف هر چیزی که می‌تواند تأثیر مستقیم یا غیرمستقیم بر خدمات داشته باشد.

  • مدیریت تغییر

فرایند انجام تغییرات در تکمیل با حداقل اختلالات و برخوردها.

  • تشدید

عمل انتقال مالکیت یک تیکت بر اساس یک نیاز عملکردی یا سلسله مراتبی.

  • رویداد

رخدادی که برای مدیریت یک سرویس یا دارایی اهمیت دارد.

  • شکست

رویدادی که در آن یک سرویس یا دارایی مطابق با SLA توافق شده عمل نمی‌کند.

  • تشدید سلسله مراتبی

عمل انتقال مالکیت به‌صورت عمودی به یک تکنسین میز خدمات سطح بالاتر یا مقامات مربوطه.

  • تأثیر

اندازه‌گیری شدت یک حادثه.

  • حادثه

وقفه برنامه‌ریزی نشده در یک سرویس فناوری اطلاعات یا کاهش کیفیت خدمات فناوری اطلاعات. خرابی یک آیتم پیکربندی، حتی اگر هنوز یک سرویس را تحت تأثیر قرار نداده باشد، نیز یک حادثه است (به‌عنوان‌مثال خرابی یک دیسک از یک مجموعه Mirror).

  • مدیریت حوادث

فرایند مدیریت چرخه حیات همه حوادث برای بازگرداندن عملیات خدمات عادی در اسرع وقت و به حداقل رساندن تأثیر کسب‌وکار.

  • اولویت‌بندی حادثه

تعیین اولویت‌ها به حوادث و تعریف آنچه یک حادثه بزرگ را تشکیل می‌دهد.

  • حادثه بزرگ

حادثه‌ای که تأثیر و فوریت بالایی دارد و نیاز به یک فرایند جداگانه از مدیریت حادثه دارد.

  • مدیر حادثه بزرگ

شخصی که مسئول MIT و اجرای فرایند MIM است.

  • میانگین زمان برای تصدیق (MTTA)

اندازه‌گیری سرعت یک حادثه توسط میز خدمات تأیید می‌شود.

  • میانگین زمان تشخیص (MTTD)

اندازه‌گیری سرعت یک تهدید بالقوه برای یک سرویس یا پیکربندی مورد شناسایی می‌شود.

  • میانگین زمان بین خرابی‌ها (MTBF)

اندازه‌گیری اینکه چگونه اغلب یک سرویس یا دارایی شکست می‌خورد.

  • میانگین زمان برای تعمیر / حل / پاسخ / بازیابی (MTTR)

اندازه‌گیری اینکه چقدر سریع یک سرویس پس از شکست بازسازی می‌شود.

  • عملیات خدمات عادی

یک عملیات خدماتی که مطابق با توافقنامه سطح خدمات (SLA) است.

  • مشکل

علت یا علت احتمالی یک یا چند حادثه.

  • ماتریس RACI

این نقش‌ها و مسئولیت‌ها را در پروژه‌ها و فرایندهای متقابل یا اداری تعریف می‌کند.

  • میز خدمات

نقطه ارتباط بین ارائه‌دهندگان خدمات و کاربران سازمان.

  • مدیر میز خدمات

کسی که فعالیت‌های روزانه میز خدمات را نظارت می‌کند و مسئول عملکرد آن است.

  • هدف سطح خدمات (SLO)

این هدف ارائه‌دهندگان خدمات را تعریف می‌کند و وسیله‌ای برای اندازه‌گیری عملکرد آن‌ها است.

  • SLA

توافق بین ارائه‌دهنده خدمات و مشتری در مورد سطح مورد انتظار خدمات و زمان مورد انتظار که در آن تحویل داده می‌شود.

  • فوریت

اندازه‌گیری اینکه چقدر سریع یک حادثه باید حل شود.

سؤالات متداول

مدیریت حوادث عمده در ITIL چیست؟

یک حادثه بزرگ یک مسئله فوری و با تأثیر بالا است که معمولاً کل سازمان یا بخش عمده‌ای از آن را تحت تأثیر قرار می‌دهد. یک حادثه بزرگ تقریباً همیشه منجر به در دسترس نبودن خدمات سازمان می‌شود، که باعث می‌شود کسب‌وکار سازمان ضربه بخورد و درنهایت بر جایگاه مالی و اعتبار آن تأثیر می‌گذارد.

مراحل رسیدگی به یک حادثه بزرگ کدامند؟

چهار مرحله از یک حادثه بزرگ عبارت‌اند از:

  • مرحله ۱: شناسایی
  • مرحله ۲: مهار
  • مرحله ۳: Resolution
  • مرحله ۴: تعمیر و نگهداری

فرایند مدیریت حادثه بزرگ چگونه است؟

فرایند اصلی مدیریت حادثه بزرگ در درجه اول شامل مراحل زیر است:

مرحله ۱: شناسایی

  • اعلام حادثه بزرگ
  • اطلاع‌رسانی به ذینفعان

مرحله ۲: مهار

  • جمع‌آوری تیم حادثه بزرگ
  • راه‌اندازی یک پل کنفرانس
  • آماده‌سازی یک اتاق جنگ تعیین‌شده
  • ایجاد یک تیکت مشکل برای شناسایی مسائل اساسی

مرحله ۳: Resolution

  • اجرای طرح Resolution به‌عنوان یک تغییر

مرحله ۴: تعمیر و نگهداری

  • انجام یک بررسی پس از پیاده‌سازی
  • تولید مستندات روشن
  • معیارهای اندازه‌گیری

تفاوت بین مدیریت حادثه و مدیریت حادثه بزرگ چیست؟

مدیریت حادثه فرایند مدیریت اختلالات خدمات فناوری اطلاعات و بازگرداندن خدمات در توافقنامه‌های سطح خدمات توافق شده (SlAs) است. دامنه مدیریت حادثه با گزارش کاربر نهایی شروع می‌شود یک مسئله و با یک عضو تیم Service Desk که این مسئله را حل می‌کند، به پایان می‌رسد.

درحالی‌که مدیریت حوادث عمده (MIM) فرایند مدیریت حوادث بزرگ است که مسائل فوری و با تأثیر بالا هستند که معمولاً بر کل سازمان یا بخش عمده‌ای از آن تأثیر می‌گذارد و باعث ایجاد سازمان می‌شود. کسب‌وکار ضربه می‌خورد و درنهایت بر جایگاه مالیان تأثیر می‌گذارد.

دامنه MIM با شناسایی حوادث عمده گزارش‌شده از منابع مختلف آغاز می‌شود و با بررسی حادثه بزرگ توسط میز خدمات به پایان می‌رسد. برای درک بهتر در مورد چگونگی رسیدگی و بهبود فرایند MIM بررسی لازم است.

چگونه می‌توان فرایند مدیریت حادثه بزرگ را بهبود بخشید؟

فرایند MIM را می‌توان با:

  • فعال کردن چندین کانال برای گزارش حوادث بزرگ
  • اتوماسیون فرایندهای میز خدمات
  • تلاش برای ارتباطات سریع و مرتبط
  • ایجاد مستندات واضح
  • استفاده از یکپارچگی عمیق با نرم‌افزار ITOM

چه کسی باید حوادث بزرگ را اعلام کند؟

یک حادثه بزرگ معمولاً توسط مدیر حادثه بزرگ اعلام می‌شود. اگرچه، اتوماسیون سازی از طریق ابزارهای مانیتورینگ را نیز می‌توان برای شناسایی هر تیکت که به‌طور بالقوه می‌تواند منجر به حوادث بزرگ شور را تنظیم کرد و به‌سرعت مدیر حادثه بزرگ را مطلع کرد. اطلاعات بیشتر در مورد اینکه چه کسی حادثه بزرگ را اعلام میکند را اینجا بخوانید.

نقش یک مدیر حادثه بزرگ چیست؟

مدیر حادثه بزرگ, مالک حوادث بزرگ است. نقش او شامل اعلام یک حادثه به‌عنوان یک حادثه بزرگ، اطمینان از پیگیری فرایند MIM و حل‌وفصل حادثه در اسرع وقت است.

چه چیزی یک مدیر حادثه بزرگ خوب را می‌سازد؟

درحالی‌که هیچ لیست مطلقی از ویژگی‌هایی که یک مدیر حادثه بزرگ را خوب توصیف کند وجود ندارد، ولی این ویژگی‌ها قطعاً کمک می‌کند:

  • به خود و اوضاع مسلط باشد.
  • در روابط و برقراری ارتباط باید ماهر باشد.
  • به جزئیات توجه زیادی نشان دهد.
  • بسرعت تصمیم‌گیری کند.
  • متفکر تحلیلی باشد.

برخی از KPI های مهم برای پیگیری مدیریت حوادث بزرگ چیست؟

در اینجا برخی از KPI های مهم برای پیگیری مدیریت حوادث مهم وجود دارد:

  • میانگین زمان برای حل‌وفصل (MTTR)
  • میانگین زمان برای تصدیق (MTTA)
  • میانگین زمان بین شکست (MTBF)
  • میانگین زمان تشخیص (MTTD)
  • درصد افزایش یا کاهش حوادث بزرگ

سرویس دسک پلاس یک ابزار محبوب برای مدیریت حوادث بزرگ است امتحانش کنید!

مقالات مرتبط را حتماً بخوانید:

مدانت
مدانت
شرکت‌ مدانت از برندهای محبوب فناوری‌ اطلاعات و ارتباطات در حوزه‌ی آموزش، پیاده‌سازی و عرضه ابزار ITIL، تجارت آنلاین، تحول دیجیتال و ارایه‌‌کننده‌ی محصولات مدیریتی تحت‌وب در ایران است. این مقاله‌ی آموزشی منحصراً مربوط به مدانت بوده و برای نخستین بار توسط این شرکت برای شما تولید و منتشر شده.
5 1 رای
امتیازدهی به مقاله
اشتراک در
اطلاع از
guest

حل معادله *

3 نظرات
قدیمی‌ترین
تازه‌ترین بیشترین رأی
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
محمد
محمد
9 ماه قبل

ممنون عالی

trackback

[…] حوادث بزرگ از حادثه و / یا به مدیریت […]

trackback

[…] اخص اگر یک حادثه بزرگ Major Incident رخ دهد یا چند حادثه‌ی تکراری اتفاق بیفتد و یا شکافی در […]

error: نیازی به کپی نیست همه چیز در دیدرس شماست
3
0
افکار شما را دوست داریم، لطفا نظر دهید.x