مدانت

معیارهای مهم مدیریت حوادث و KPI ها

هنگامی‌که به MIM می‌آید، در زیر برخی از معیارهای مهم و KPI ها برای پیگیری وجود دارد.

KPIفرمولنظرات
میانگین زمان برای حل‌وفصل  (MTTR)متوسط زمان از زمانی که یک حادثه بزرگ گزارش می‌شود تا زمانی که حل می‌شود.این نشان می‌دهد که میز خدمات شما با چه سرعتی می‌تواند حوادث بزرگ را حل کند. MTTR کوتاه‌تر نشانه این است که MIT شما مؤثر و کارآمد است.
میانگین زمان برای تصدیق  (MTTA)متوسط زمان برای پاسخ به یک حادثه بزرگMTTA کوتاه‌تر نشانه این است که میز خدمات شما سریع به حوادث بزرگ پاسخ می‌دهد.
میانگین زمان بین شکست  (MTBF)متوسط زمان بین شکست‌ها این با تقسیم کل زمان اپ تایم بر تعداد کل شکست‌ها محاسبه می‌شود.این نشان‌دهنده عملکرد زیرساخت IT شما است. MTBF بالاتر نشانه این است که زیرساخت IT شما به‌خوبی عمل می‌کند.
میانگین زمان تشخیص  (MTTD)متوسط زمان لازم برای شناسایی حوادث بزرگ یا ناهنجاری‌ها.این شاخص نیز اندازه‌گیری می‌کند که چقدر سریع یک حادثه بزرگ شناسایی می‌شود. MTTD کوچک‌تر نشانه این است که میز خدمات برای شناسایی حوادث بزرگ سریع هستند.
درصد افزایش یا کاهش  حوادث بزرگدرصد افزایش مشکلات در ماه‌های بعد نسبت به ماه اول.این به شما کمک می‌کند تا روند وقوع حوادث بزرگ را شناسایی کنید.

سناریوهای حادثه بزرگ

دو سناریو زیر، حوادث بزرگی بودند که بر خدمات سازمان تأثیر عمیقی گذاشت:

  • در ژوئیه ۲۰۱۹ قطعی سرویس Cloudflare سبب از دسترس خارج شدممشتریان به خدمات سازمان شد که تحت تأثیر یک حادثه بزرگ قرارگرفته‌اند. این قطعی بزرگ تقریباً نیمی از اینترنت را تحت تأثیر قرار داد و طی آن میلیون‌ها کاربر اینترنت قادر به دسترسی به خدمات مختلف نشدند.
  • در نوامبر ۲۰۱۹ نیز قطعی سرویس در یک شرکت هواپیمایی بنام IndiGo سبب مختل شدن توانایی کارکنان برای تکمیل به‌موقع کارهایشان شد و منجر به اختلال وسیعی در کسب‌وکار گردید و درنهایت سبب تأخیرهای طولانی هزاران مسافر شد.

مهم است که به یاد داشته باشید که همه حوادث با اولویت بالا حوادث بزرگ نیستند. ازآنجاکه فرایند MIM شامل تعهد قابل‌توجهی از منابع مانند اجرای MIT جداگانه است، مهم است که حوادث عمده را با دقت طبقه‌بندی کنیم.

قطع Cloudflare 2019 نمونه بسیار خوبی ازآنچه یک حادثه بزرگ را تعریف می‌کند. در این مورد، قطع برق منجر به کاهش ۸۰ درصد از ترافیک Cloudflare شد و میلیون‌ها کاربر اینترنت را در سراسر دنیا تحت تأثیر قرار داد.

تأثیر: بزرگ

قطع برق باعث شد مشتریان Cloudflare (و مشتریان آن‌ها) هنگام بازدید از هر دامنه Cloudflare یک صفحه خطای ۵۰۲ را مشاهده کنند. خطاهای ۵۰۲ توسط سرورهای وب Cloudflare که هنوز هسته CPU در دسترس داشتند، ایجاد شد. اما قادر به دسترسی به فرایندهایی که ترافیک HTTP / HTTPS را ارائه می‌داند، نبودند. تخمین زده می‌شود که حداقل نیمی از کل اینترنت برای بیست‌وهفت دقیقه خرابی غیرقابل‌دسترسی بود.

فوریت: بالا

تمام وب‌سایت‌های Cloudflare غیرقابل‌دسترس بودند و باعث اختلال در خدمات برای هزاران سازمان و میلیون‌ها کاربر شدند. قطع برق عملیات داخلی Cloudflare را نیز تحت تأثیر قرار داد و مانع از دسترسی کارکنان Cloudflare شد. خدمات مختلف مانند ابزار مدیریت تغییر شرکت و کنترل پنل داخلی. قطع برق باید برای ازسرگیری عملیات خدمات عادی انجام شود.

جدول زمانی رویدادها از تشخیص تا تفکیک:

ابزارهای عملیات شبکه Cloudflare شروع به پرچم گذاری کاهش ترافیک کردند، بسیاری از آزمایش‌های دیگر خدمات Cloudflare شروع به شکست کردند، کاربران نهایی متوجه شدند خطاهای ۵۰۲ و Cloudflare گزارش‌های بسیاری از خستگی CPU را از نقاط حضور خود در شهرهای سراسر جهان دریافت کرد.

تیم مهندسی قابلیت اطمینان دفتر مرکزی، تیم مهندسی لندن و سایر تیم‌های مربوطه برای عیب‌یابی و رفع مشکل گرد هم آمدند. و ظرف سه دقیقه و در ساعت ۱۴:۰۰، علت این حادثه شناسایی شد. و در ساعت ۱۴:۰۷ سرویس برای بازگرداندن سطح ترافیک به حالت عادی اجرا شد.

در ساعت ۱۴:۵۲، Cloudflare ۱۰۰ درصد راضی بود که علت قطع برق را درک کرده و یک تعمیر در محل داشته باشد، بنابراین سرویس WAF این شرکت دوباره در سطح جهانی فعال شد.

ادامه مطلب در صفحه بعد...

مدانت
مدانت
شرکت‌ مدانت از برندهای محبوب فناوری‌ اطلاعات و ارتباطات در حوزه‌ی آموزش، پیاده‌سازی و عرضه ابزار ITIL، تجارت آنلاین، تحول دیجیتال و ارایه‌‌کننده‌ی محصولات مدیریتی تحت‌وب در ایران است. این مقاله‌ی آموزشی منحصراً مربوط به مدانت بوده و برای نخستین بار توسط این شرکت برای شما تولید و منتشر شده.
5 1 رای
امتیازدهی به مقاله
اشتراک در
اطلاع از
guest

حل معادله *

3 نظرات
قدیمی‌ترین
تازه‌ترین بیشترین رأی
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
محمد
محمد
1 سال قبل

ممنون عالی

trackback

[…] حوادث بزرگ از حادثه و / یا به مدیریت […]

trackback

[…] اخص اگر یک حادثه بزرگ Major Incident رخ دهد یا چند حادثه‌ی تکراری اتفاق بیفتد و یا شکافی در […]

error: نیازی به کپی نیست همه چیز در دیدرس شماست
3
0
افکار شما را دوست داریم، لطفا نظر دهید.x