معیارهای مهم مدیریت حوادث و KPI ها
هنگامیکه به MIM میآید، در زیر برخی از معیارهای مهم و KPI ها برای پیگیری وجود دارد.
KPI | فرمول | نظرات |
میانگین زمان برای حلوفصل (MTTR) | متوسط زمان از زمانی که یک حادثه بزرگ گزارش میشود تا زمانی که حل میشود. | این نشان میدهد که میز خدمات شما با چه سرعتی میتواند حوادث بزرگ را حل کند. MTTR کوتاهتر نشانه این است که MIT شما مؤثر و کارآمد است. |
میانگین زمان برای تصدیق (MTTA) | متوسط زمان برای پاسخ به یک حادثه بزرگ | MTTA کوتاهتر نشانه این است که میز خدمات شما سریع به حوادث بزرگ پاسخ میدهد. |
میانگین زمان بین شکست (MTBF) | متوسط زمان بین شکستها این با تقسیم کل زمان اپ تایم بر تعداد کل شکستها محاسبه میشود. | این نشاندهنده عملکرد زیرساخت IT شما است. MTBF بالاتر نشانه این است که زیرساخت IT شما بهخوبی عمل میکند. |
میانگین زمان تشخیص (MTTD) | متوسط زمان لازم برای شناسایی حوادث بزرگ یا ناهنجاریها. | این شاخص نیز اندازهگیری میکند که چقدر سریع یک حادثه بزرگ شناسایی میشود. MTTD کوچکتر نشانه این است که میز خدمات برای شناسایی حوادث بزرگ سریع هستند. |
درصد افزایش یا کاهش حوادث بزرگ | درصد افزایش مشکلات در ماههای بعد نسبت به ماه اول. | این به شما کمک میکند تا روند وقوع حوادث بزرگ را شناسایی کنید. |
سناریوهای حادثه بزرگ
دو سناریو زیر، حوادث بزرگی بودند که بر خدمات سازمان تأثیر عمیقی گذاشت:
- در ژوئیه ۲۰۱۹ قطعی سرویس Cloudflare سبب از دسترس خارج شدممشتریان به خدمات سازمان شد که تحت تأثیر یک حادثه بزرگ قرارگرفتهاند. این قطعی بزرگ تقریباً نیمی از اینترنت را تحت تأثیر قرار داد و طی آن میلیونها کاربر اینترنت قادر به دسترسی به خدمات مختلف نشدند.
- در نوامبر ۲۰۱۹ نیز قطعی سرویس در یک شرکت هواپیمایی بنام IndiGo سبب مختل شدن توانایی کارکنان برای تکمیل بهموقع کارهایشان شد و منجر به اختلال وسیعی در کسبوکار گردید و درنهایت سبب تأخیرهای طولانی هزاران مسافر شد.
مهم است که به یاد داشته باشید که همه حوادث با اولویت بالا حوادث بزرگ نیستند. ازآنجاکه فرایند MIM شامل تعهد قابلتوجهی از منابع مانند اجرای MIT جداگانه است، مهم است که حوادث عمده را با دقت طبقهبندی کنیم.
قطع Cloudflare 2019 نمونه بسیار خوبی ازآنچه یک حادثه بزرگ را تعریف میکند. در این مورد، قطع برق منجر به کاهش ۸۰ درصد از ترافیک Cloudflare شد و میلیونها کاربر اینترنت را در سراسر دنیا تحت تأثیر قرار داد.
تأثیر: بزرگ
قطع برق باعث شد مشتریان Cloudflare (و مشتریان آنها) هنگام بازدید از هر دامنه Cloudflare یک صفحه خطای ۵۰۲ را مشاهده کنند. خطاهای ۵۰۲ توسط سرورهای وب Cloudflare که هنوز هسته CPU در دسترس داشتند، ایجاد شد. اما قادر به دسترسی به فرایندهایی که ترافیک HTTP / HTTPS را ارائه میداند، نبودند. تخمین زده میشود که حداقل نیمی از کل اینترنت برای بیستوهفت دقیقه خرابی غیرقابلدسترسی بود.
فوریت: بالا
تمام وبسایتهای Cloudflare غیرقابلدسترس بودند و باعث اختلال در خدمات برای هزاران سازمان و میلیونها کاربر شدند. قطع برق عملیات داخلی Cloudflare را نیز تحت تأثیر قرار داد و مانع از دسترسی کارکنان Cloudflare شد. خدمات مختلف مانند ابزار مدیریت تغییر شرکت و کنترل پنل داخلی. قطع برق باید برای ازسرگیری عملیات خدمات عادی انجام شود.
جدول زمانی رویدادها از تشخیص تا تفکیک:
ابزارهای عملیات شبکه Cloudflare شروع به پرچم گذاری کاهش ترافیک کردند، بسیاری از آزمایشهای دیگر خدمات Cloudflare شروع به شکست کردند، کاربران نهایی متوجه شدند خطاهای ۵۰۲ و Cloudflare گزارشهای بسیاری از خستگی CPU را از نقاط حضور خود در شهرهای سراسر جهان دریافت کرد.
تیم مهندسی قابلیت اطمینان دفتر مرکزی، تیم مهندسی لندن و سایر تیمهای مربوطه برای عیبیابی و رفع مشکل گرد هم آمدند. و ظرف سه دقیقه و در ساعت ۱۴:۰۰، علت این حادثه شناسایی شد. و در ساعت ۱۴:۰۷ سرویس برای بازگرداندن سطح ترافیک به حالت عادی اجرا شد.
در ساعت ۱۴:۵۲، Cloudflare ۱۰۰ درصد راضی بود که علت قطع برق را درک کرده و یک تعمیر در محل داشته باشد، بنابراین سرویس WAF این شرکت دوباره در سطح جهانی فعال شد.
ادامه مطلب در صفحه بعد...
ممنون عالی
[…] حوادث بزرگ از حادثه و / یا به مدیریت […]
[…] اخص اگر یک حادثه بزرگ Major Incident رخ دهد یا چند حادثهی تکراری اتفاق بیفتد و یا شکافی در […]