حادثه بزرگ چیست و فرایند آن را چگونه پیاده‌سازی کنیم؟

حادثه بزرگ چیست و فرایند آن را چگونه پیاده‌سازی کنیم؟

در این مقاله می‌خوانید:

  • حادثه بزرگ چیست؟
  • ویژگی‌های حوادث بزرگ کدام است؟
  • دستورالعمل‌های فرایند حادثه بزرگ
  • انواع اعلانات اطلاع‌رسانی حوادث بزرگ
  • تعیین اولویت حوادث بزرگ
  • مراجع تشخیص و تشدید حوادث بزرگ
  • مدیریت بحران
  • نقش‌ها و مسئولیت‌ها
  • سخن آخر

حادثه بزرگ چیست؟

یک حادثه بزرگ یا عمده (Major)، یک اختلال قابل‌توجه در کاروکسب است و نیاز به روش‌های جداگانه با جدول زمانی کوتاه‌تر و فوریت بیشتر دارد. هدف از تعریف حادثه بزرگ این است که خدمات را در اسرع وقت بازگردانیم و درعین‌حال جامعه آماری (ذینفعان مرتبط) را مطلع کنیم. زیرا حجم تأثیر آن بر سازمان بسیار بالاست و پرداختن به آن با رویه‌های معمول، چالش‌برانگیز خواهد شد و می‌بایست با متد مجزا، فوری و ضربتی با آن برخورد کرد. مهم‌ترین شاخص شناسایی حوادث بزرگ از سایر حوادث، تأثیر بسزا و حجم گستردگی آن است!

تشخیص اینکه چه حادثه‌ای بزرگ باشد چه نباشد کار دشواری نیست. کافی است یکی از ویژگی‌های زیر را داشته باشد.

ویژگی‌های حوادث بزرگ عبارت‌اند از:

  1. هنگامی‌که یک شکست کامل خدمات برای همه مشتریان/کاربران آن سرویس رخ می‌دهد.
  2. هنگامی‌که یک سرویس در یک مکان بحرانی شکست می‌خورد.
  3. هنگامی‌که یک سرویس در یک‌زمان بحرانی در تقویم کسب‌وکار شکست می‌خورد.
  4. هنگامی‌که قطع خدمات تأثیر مالی دارد.
  5. یک حادثه قابل‌مشاهده بر اهداف سازمانی تأثیر می‌گذارد.
  6. هنگام تخریب شدید خدمات یا هیکاپ (سکسکه خدمات)

کلیات فرایند حادثه بزرگ:

  • ارائه پل‌های ارتباطی متعدد برای برقراری ارتباط در هنگام وقوع یک حادثه بزرگ.
  • تعریف واضح نقش‌ها برای همه افراد درگیر در فرایند حادثه بزرگ.
  • ارائه اطلاع‌رسانی رسمی برای دسترسی سریع و آسان به ذینفعان.

دستورالعمل‌های فرایند حوادث بزرگ

راهنمای عمومی

  1. کارشناس سطح ۱ سرویس دسک، باید از هر اعلانی که به جامعه کاربران ارسال می‌شود آگاه باشد.
  2. فرایند رسیدگی حادثه بزرگ یا عمده باید در ساعات کاری، بعد از ساعت، تعطیلات آخر هفته و تعطیلات دنبال شود.
  3. صاحبان برنامه / خدمات یا نماینده تعیین‌شده باید تمام حوادثی را که به‌عنوان یک حادثه بزرگ تلقی می‌شوند را بررسی و تأیید کنند.
  4. درخواست‌کنندگان خدمات، یا نماینده تعیین‌شده، مالک درخواست مشکل هستند.
  5. اطلاع‌رسانی به کلیه افراد متأثر از آن حادثه بزرگ باید در اسرع وقت صورت گیرد.
  6. یک درخواست مشکل جدید باید برای یک یا همه حوادث بزرگ ایجاد شود.

انواع اعلان‌ها

اعلان‌های اطلاع‌رسانی برای برقراری ارتباط دقیق و به‌موقع با جامعه استفاده می‌شود. هنگامی‌که وقفه در خدمات در محیط کاروکسب رخ می‌دهد، مهم است که به‌طور مداوم و دقیق شدت وقفه و تأثیران بر کاربران را تعیین کنید. هدف از این اطلاعیه‌ها به دست آوردن منابع فنی مناسب برای بازگرداندن خدمات و برقراری ارتباط وقفه خدمات به رهبری و جامعه است.

نوع اعلان صادرشده بر اساس اولویت حادثه بزرگ تعیین می‌شود.

  1. SIA یا Service Impact Advisory: مشاوره تأثیر خدمات: برای برقراری ارتباط یک وقفه خدمات برنامه‌ریزی نشده P2، P3 یا P4 استفاده می‌شود که منجر به سرویسی می‌شود که طبق طراحی انجام نمی‌شود. چنین مسائلی می‌تواند تخریب خدمات، قطع ویژگی یا سکسکه سیستم باشد.
  2. MIN یا Major Incident Notification : اطلاع‌رسانی حادثه بزرگ: مورداستفاده برای برقراری ارتباط بحرانی، P1، وقفه خدمات. چنین مسائلی می‌تواند شامل قطع کامل خدمات یا تأثیر گسترده سازمان باشد.
  3. Critical MIN – Critical Major Incident Notification : اعلان حادثه مهم بحرانی: مورداستفاده برای برقراری ارتباط بحرانی، P1، وقفه خدمات است که تأثیر یک برنامه کسب‌وکار حیاتی و یا خدمات زیرساخت هسته این نوع اعلان از پروتکل مدیریت بحران پیروی می‌کند.

بخاطر داشته باشید! تمام اختلالات قابل‌توجه در کسب‌وکار، صرف‌نظر از نوع اطلاع‌رسانی (MIN یا SIA) حوادث بزرگ محسوب می‌شوند.

تعیین اولویت و نوع اعلان

در زیر سؤالاتی وجود دارد که به تعیین تأثیر و فوریت صحیح کمک می‌کند تا اولویت مناسب اختصاص یابد. هر صاحب برنامه / خدمات باید این سؤالات را در نظر بگیرد و آماده ارائه اطلاعات لازم به میز خدمت باشد.

  1. آیا این سرویس کاملاً در دسترس نیست؟
  2. چند کاربر تحت تأثیر قرار می‌گیرند؟
  3. آیا این کاربران ویژه یا VIP هستند؟
  4. تأثیر آن از چه نوعی است: گسترده، قابل‌توجه یا محلی؟
  5. آیا پیامدهای مالی به همراه دارد؟
  6. آیا هرگونه برنامه‌های کاربردی کسب‌وکار بحرانی یا خدمات زیرساخت اصلی تحت تأثیر قرارگرفته است؟

اگر پاسخ به هر سؤالی بله باشد، اطلاع‌رسانی مناسب باید آغاز شود (MIN برای P1 یا SIA برای P2، P3، P4)

اطلاعات لازم در هنگام گزارش یک حادثه بزرگ

  1. نام سرویس چیست؟
  2. مک یا آدرس IP چیست؟
  3. تأثیر را برای مشتریان توصیف کنید
  4. آیا این موضوع بر همه مشتریان تأثیر می‌گذارد؟
  5. آیا این حادثه بر مکان‌های خاصی تأثیر می‌گذارد؟
  6. تاریخ/زمان وقفه اولیه
  7. آیا این سرویس کاملاً در دسترس نیست؟
  8. جزئیات فنی؟
  9. آیا این بر سازمان، کاربران درون‌سازمانی و مشتریان بیرون از سازمان و یا هر دو تأثیر می‌گذارد؟

مراجع تشخیص و تشدید حوادث بزرگ

تشخیص حادثه عمده می‌تواند از منابع مختلف سرچشمه گیرد. پس از شناسایی، مراحل زیر باید از منبع مبدأ انجام شود: به‌طورکلی از چهار درگاه برای اعلام و تشخیص حوادث بزرگ وجود دارد:

  1. تشخیص حادثه بزرگ توسط کارشناسان سرویس دسک
  2. تشخیص حادثه بزرگ توسط مرکز عملیات شبکه (NOC)
  3. تشخیص حادثه بزرگ توسط مالک برنامه / خدمات
  4. تشخیص حادثه بزرگ توسط کاربر
  1. تشخیص حادثه بزرگ توسط کارشناسان سرویس دسک

هنگامی‌که سه تا پنج تماس در همان موضوع دریافت می‌شود، یا یک تماس برای یک برنامه کسب‌وکار حیاتی یا خدمات زیرساخت اصلی طرح‌شده سریعاً موارد زیر را انجام دهید:

  1. با مالک برنامه/سرویس مرتبط تماس بگیرید تا آن‌ها را آگاه کنید که سرویس‌کار نمی‌کند
  2. تکنسین میز خدمت، اگر پس از ۱۰ دقیقه پاسخ نداد، به مرحله ۲ را بروید.
  3. مالک برنامه / خدمات، اگر پس از ۱۰ دقیقه پاسخ نداد، مرحله ۳ را ببینید
  4. مدیر بحران، اگر پس از ۱۰ دقیقه پاسخی نداد، مرحله ۴ را ببینید
  5. مدیر فناوری اگر بعد از ۱۰ دقیقه پاسخی نداد، مرحله ۵ را ببینید
  6. مدیر/ معاون CIO
  7. تأیید اعتبار با مالک سرویس / برنامه که یک مسئله وجود دارد
  8. صدور اطلاعیه مناسب تعیین‌شده توسط صاحب برنامه / خدمات، بر اساس تأثیر و فوریت
  9. اگر اولویت حادثه ۱ بحرانی است و بر یک برنامه کسب‌وکار بحرانی یا خدمات زیرساخت اصلی تأثیر می بگذارد، مدیر بحران را از طریق سرویس دسک مطلع کنید و از عبارت شبیه “یک حادثه بزرگ در حال وقوع است لطفاً در اسرع وقت به پل بپیوندید” استفاده کنید.
  1. تشخیص حادثه بزرگ توسط مرکز عملیات شبکه (NOC)

هنگامی‌که یک هشدار از سامانه‌های مانیتورینگ یا کارشناسان شبکه دریافت می‌شود که دارای پتانسیل فوری است، به‌وضوح معیارهای یک حادثه بزرگ را مشخص می‌کند، اقدامات زیر را انجام دهید:

  1. حادثه به‌طور خودکار از طریق یک اعلان نظارت (یعنی Zabbix / Solarwinds/ Opamanger) وارد می‌شود.
  2. تریاژ هشدار
  3. اولویت‌بندی حادثه
  4. عیب‌یابی و اعتبارسنجی هشدار
  5. تماس با مالک برنامه / خدمات یا تکنسین
  6. برای موقعیت‌های خاص، از طرف مالک برنامه / خدمات، از طریق خط هشدار با میز خدمت تماس بگیرید
  7. تماس با خط پل برای کمک.

سرویس دسک اعلان مناسب را بر اساس بحرانی بودن حادثه منتشر خواهد کرد.

  1. تشخیص حادثه بزرگ توسط مالک برنامه / خدمات

هنگامی‌که یک حادثه بزرگ شناسایی می‌شود، یا از طریق نظارت یا سایر ابزارها، موارد زیر را انجام دهید:

  1. ایجاد تیکت حادثه در سرویس دسک به همراه شرح کوتاهی که شامل CI آسیب‌دیده است و شرح مختصری از تأثیران به کاربران (نوشته باید ساده و شفاف و به زبان مشتری‌پسند) باشد.
    • مالک برنامه / سرویس می‌تواند رکورد حادثه را تکمیل کند و سپس با میز خدمت تماس بگیرد تا اطلاعیه حادثه بزرگ مناسب را ایجاد / صادر کند یا می‌تواند با میز خدمت تماس بگیرد تا رکورد حادثه را ایجاد کند و رکورد اطلاع‌رسانی حادثه بزرگ را ایجاد کند.
    • مالک برنامه / خدمات مسئول محتوای موجود در رکورد حادثه است و اطلاعات مناسب را برقرار می‌کند:
    • شرح کوتاه
    • طبقه‌بندی
    • مورد پیکربندی (CI)
    • تأثیر و فوریت
    • چه کسی تحت تأثیر قرار می‌گیرد (کاربران درون‌سازمانی، مشتریان یا هر دو)
    • چه ویژگی‌هایی از خدمات تحت تأثیر قرار می‌گیرد؟
    • به‌روزرسانی سابقه حادثه با فعالیت‌های عیب‌یابی تا زمانی که حل‌وفصل نشده.
    • ارسال درخواست تغییر اضطراری در سرویس دسک، اگر یک سیستم تولید نیاز به راه‌اندازی مجدد یا سایر تغییرات داشته باشد.
  2. پس از حل‌وفصل حادثه، مالک برنامه / خدمات یا مدیر بحران:
    • یادداشت‌های قطعنامه را در رکورد حادثه وارد نماید.
    • تماس با میز خدمت برای به‌روزرسانی پیام پایانی جلو و بستن درخواست و ثبت راهکار.
  1. تشخیص حادثه بزرگ توسط کاربر

اگر شما به‌عنوان یک کاربر استفاده‌کننده از برنامه/خدمات یک شکست یا وقفه در یک سرویس فناوری اطلاعات را تجربه کردید، که به‌طور مستقیم بر عملیات تجاری عادی تأثیر می‌گذارد، موضوع را به میز خدمت سازمان گزارش دهید:

  • تماس با کارشناسان میز خدمت یا ایجاد یک تیکت در سرویس دسک پلاس.
  • اگر کارکنان فنی تعیین کنند که این مسئله به‌عنوان یک حادثه بزرگ طبقه‌بندی‌شده است، اقدامات زیر برای به‌روزرسانی جامعه انجام خواهد شد:
  • پیام میز خدمت سازمان به‌روز خواهد شد تا تماس‌گیرندگان بدانند که یک مسئله شناسایی‌شده است
  • به‌روزرسانی وضعیت که توسط فناوری اطلاعات سال می‌شود
  • اگر اولویت P1 باشد، یک ایمیل به کسانی که مشترک اطلاعیه‌های حادثه عمده هستند ارسال می‌شود.

در هر یک از موارد فوق، مالک برنامه / خدمات یا نماینده تعیین‌شده است که اختیار درخواست ایجاد و انتشار اطلاعیه را دارد. این مسئولیت مالک برنامه / سرویس است که حادثه را به‌عنوان حادثه بزرگ تأیید کند.

مهم: صرف‌نظر از منبع مبدأ و مرجع تشخیص، هر رکورد حادثه باید ثبت شود. یک رکورد جدید حادثه بزرگ باید برای شروع فرایند حادثه بزرگ ایجاد شود. فرض کنید اگر هم کنون یک رکورد حادثه در حال حاضر برای قطعی برق وجود دارد، بایدان را به رکورد جدید حادثه بزرگ مرتبط کرد.

پروتکل مدیریت بحران

مدیریت بحران به‌عنوان یک گسترش به فرایند حادثه بزرگ توسعه داده شد. مدیر بحران نقش، ارتباطات و تسهیل را در شرایط بحرانی فراهم می‌کند. بحران، در فرایند حادثه بزرگ، به‌عنوان یک وقفه خدمات بحرانی، P1، تعریف می‌شود که بر یک برنامه کسب‌وکار بحرانی یا خدمات زیرساخت اصلی تأثیر  می بگذارد. این حوادث باعث اختلال قابل‌توجهی در کسب‌وکار می‌شود و نیاز به روش‌های جداگانه با افزایش ارتباطات، جدول زمانی کوتاه‌تر و فوریت بیشتر دارد. این بخش فعالیت‌هایی را که باید در طول یک بحران انجام شود، مشخص می‌کند.

مالک برنامه / خدمات یا هماهنگ‌کننده بحران

صرف‌نظر از منبع گزارش‌شده، هنگامی‌که تیکت حادثه مهم بحرانی ایجادشده است، مالک برنامه / خدمات یا هماهنگ‌کننده بحران، مراحل زیر را انجام خواهد داد:

  1. خط پل بحران را بازکنید.
  2. اطمینان حاصل کنید که میز خدمت به مدیر بحران اطلاع می‌دهد.
  3. جمع‌آوری منابع مناسب موردنیاز برای عیب‌یابی و شناسایی یک قطعنامه.
  4. همکاری با مدیر بحران برای ایجاد به‌روزرسانی‌ها.
  5. با تیم فنی همکاری کنید تا:
    1. منبع مشکل را شناسایی کنند:
      1. مرور تقویم تغییر
      2. بررسی سیاهه‌های مربوط
      3. ایجاد نمودار
      4. در صورت لزوم فروشنده را درگیر کنید
      5. یادداشت‌های کاری حادثه را با فعالیت‌های عیب‌یابی را به‌روز کنید.
    2. سازمان‌دهی و پیاده‌سازی Fix or Workaround
      1. سازمان‌دهی مراحل رفع مشکل
      2. ایجاد بازه زمانی برای هر مرحله
      3. با مدیر بحران مشورت کنید اگر تصمیم رهبری لازم است
      4. یادداشت‌های کاری حادثه را با فعالیت‌های عیب‌یابی به‌روز کنید
    3. تست و اعتبار ثابت یا راه‌حل
      1. تست برنامه / خدمات
      2. بررسی داشبورد در دسترس بودن برنامه/خدمات
      3. از شرکت‌کنندگان پل بخواهید که آزمایش و اعتبارسنجی کنند
      4. یادداشت‌های کاری حادثه را با فعالیت‌های عیب‌یابی به‌روز کنید
    4. حل
      1. جمع‌آوری اطلاعات ثبت وقایع
      2. ذخیرۀ پیکربندی‌ها
      3. یادداشت‌های حادثه را با زمان حل‌وفصل به‌روز کنید
    5. تأیید قطعنامه با مدیر بحران

مدیریت بحران

هنگامی‌که یک متن از میز خدمت دریافت می‌شود که به حادثه مهم بحرانی اشاره دارد، مدیر بحران اقدامات زیر را انجام می‌دهد:

  1. پیوستن به خط پل بحران
  2. جمع‌آوری اطلاعات اولیه در مورد حادثه
  3. ارسال پیام هشدار اولیه، به لیست‌های گروهی از پیش تعریف‌شده، 
  4. به‌روزرسانی صفحه وضعیت فناوری اطلاعات، با استفاده از همان کلمات از پیام هشدار اولیه
  5. شناسایی مالک برنامه / خدمات یا نماینده تعیین‌شده در خط پل که تلاش‌های عیب‌یابی فنی را هدایت / مدیریت می‌کند (هماهنگ‌کننده بحران)
  6. برای سازمان‌دهی وظایف زیر با هماهنگ‌کننده بحران شناسایی‌شده همکاری کنید:
    1. تعریف وضعیت فعلی و ایجاد بیانیه مشکل خاص برای تمرکز تلاش عیب‌یابی
    2. ایجاد لیستی از رفع یا راه‌حل‌های ممکن
    3. امیدوارکننده‌ترین راه‌حل یا راه‌حل را انتخاب کنید و یک بازه زمانی برای کار ایجاد کنید
    4. مشورت با رهبری اجرایی (CIO و DCIOs) برای راهنمایی تصمیم‌گیری، در صورت لزوم
  7. در بالا و پایین هر ساعت، وظایف زیر را تکرار کنید تا زمانی که یک قطعنامه اجرا شود و حادثه بزرگ حل شود:
    1. مشورت با هماهنگ‌کننده بحران برای به‌روزرسانی وضعیت
    2. ارسال پیام هشدار به‌روزرسانی، به لیست‌های گروه از پیش تعریف‌شده.
    3. به‌روزرسانی صفحه وضعیت فناوری اطلاعات، با استفاده از همان کلمات از پیام هشدار به‌روزرسانی
  8. هنگامی‌که قطعنامه نهایی از هماهنگ‌کننده بحران دریافت شد، وظایف زیر را انجام دهید:
    1. تأیید قطعنامه میز خدمت سازمان (در صورت تأثیر)
    2. مشورت با هماهنگ‌کننده بحران برای به‌روزرسانی قطعنامه
    3. ارسال پیام هشدار قطعنامه به لیست‌های گروه از پیش تعریف‌شده.
    4. صفحه وضعیت فناوری اطلاعات را به‌روز کنید و رکورد حادثه بزرگ را با استفاده از همان کلمات از پیام هشدار اعلامیه قطعنامه حل کنید
  9. خط پل بحران را ببندید.

دستورالعمل‌های ارتباطی حوادث بزرگ

ارتباط در یک حادثه بزرگ

در طول هر حادثه بزرگ، حیاتی است که جامعه از وضعیت فعلی برنامه یا خدمات و زمان تخمینی برای بازگرداندنان به رفتار مورد انتظار مطلع شود. مالک برنامه / سرویس خدمات تحت تأثیر قرارگرفته برای تمام ارتباطات به جامعه در طول چرخه عمر یک حادثه بزرگ پاسخگو است. بسته به نوع اطلاع‌رسانی اختصاص داده‌شده، درجات مختلفی ازآنچه ارتباط برقرار می‌شود، به چه کسی و چند بار وجود دارد. این بخش دستورالعمل‌های ارتباطی مرتبط با هر نوع اعلان را توضیح می‌دهد.

با چه کسی ارتباط برقرار کنیم؟

  • میز خدمت سازمان (کارشناسان میز خدمت)
  • کاربران و ذینفعان کلیدی
  • مالک برنامه/خدمات
  • مشاورین
  • پیمانکار مرتبط
  • صفحه وضعیت درخواست‌های IT
  • مدیر حادثه
  • مدیر بحران

چگونه ارتباط برقرار کنیم؟

  • دستورالعمل مشخصی تعیین کنید.
  • با کسب حمایت مدیریت ارشد، افراد را به نقش‌هایشان در هنگام وقوع حوادث بزرگ یا بحران‌ها آگاه و ملزم کنید.
  • بسته به اهمیت حادثه در زمان‌های مرتب در طول چرخه عمر حادثه، و یا به‌عنوان ابلاغ از افراد مرتبط پیگیری کنید.
  • هنگامی‌که قطعنامه اجرا شد و خدمات بازسازی شد، پرونده حادثه را حل‌وفصل کنید و به میز خدمت اطلاع دهید.
  • استرس اگرچه خوب نیست اما در زمان‌های بحرانی لازم است! زیرا فوریت با موفقیت در ارتباط است!

سخن آخر:

  • حوادث بزرگ را کوچک نشمرید!
  • حوادث بزرگ را بعد از حل و فصل مستند کنید تا اگر مجدد حادث شد دور خودتان نچرخید!
  • فوریتها را واقعی کنید.
  • سعی کنید پیش از کاربران، حوادث را تشخیص دهید!
  • از ابزار ITSM خوب برای مدیریت حوادث و مدیریت مشکل استفاده نمایید.

سرویس دسک پلاس یک ابزار محبوب ITSM است امتحانش کنید!

مقالات مرتبط را حتماً بخوانید:

مدانت
مدانت
شرکت‌ مدانت از برندهای محبوب فناوری‌ اطلاعات و ارتباطات در حوزه‌ی آموزش، پیاده‌سازی و عرضه ابزار ITIL، تجارت آنلاین، تحول دیجیتال و ارایه‌‌کننده‌ی محصولات مدیریتی تحت‌وب در ایران است. این مقاله‌ی آموزشی منحصراً مربوط به مدانت بوده و برای نخستین بار توسط این شرکت برای شما تولید و منتشر شده.
5 1 رای
امتیازدهی به مقاله
اشتراک در
اطلاع از
guest

حل معادله *

5 نظرات
قدیمی‌ترین
تازه‌ترین بیشترین رأی
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
trackback

[…] (MIM) یاMajor Incident Management  ندارد شما نمی‌توانید به‌سرعت به حوادث بزرگ پاسخ و آن را حل‌وفصل کنید. اگر چنین فرایندی را در محل […]

trackback

[…] (MIM) یاMajor Incident Management  ندارد شما نمی‌توانید به‌سرعت به حوادث بزرگ پاسخ و آن را حل‌وفصل کنید. اگر چنین فرایندی را در محل […]

trackback

[…] Incident Management  ندارد شما نمی‌توانید به‌سرعت به حوادث بزرگ پاسخ و آن را حل‌وفصل کنید. اگر چنین فرایندی را در […]

محمد
محمد
10 ماه قبل

خیلی خوب بود

trackback

[…] حوادث بزرگ به حادثه و / یا مدیر […]

error: نیازی به کپی نیست همه چیز در دیدرس شماست
5
0
افکار شما را دوست داریم، لطفا نظر دهید.x