چگونگی مدیریت مشکل پیشگیرانه با فرایند مدیریت رویداد!؟

مدیریت مشکل پیشگیرانه با مدیریت رویداد

مدیریت مشکل پیشگیرانه با مدیریت رویداد

چگونگی مدیریت مشکل پیشگیرانه با فرایند مدیریت رویداد!؟

تمامی اخباری که به هر شکلی به دست ما می‌رسند حاوی پیام‌هایی هستند که از سه حالت خارج نیستند یا خبر مسرت‌بخشی است یا نگران‌کننده و یا ناامیدکننده!

با شنیدن این اخبار گاهی بی‌تفاوت بودن، گاه لبخند زدن، گاهی آماده بودن و در نهایت گاهی دست به اقدامی فوری زدن تمام واکنش ما به آن خواهد بود.

در جهان فناوری اطلاعات و ITIL هم همین اخبار در سه حالت: اطلاع، هشدار، خطا توسط سیستم‌ها و سرویس‌ها به گوش ما می‌رسند که به آن رویداد می‌گویند و به اندازه‌ی اخبار پیرامون ما، رویداد تولید می‌شود.

مدیریت رویداد، در بخش عملیات خدمت و یکی از فرایندهای مهم تعریف شده در ITIL3 است اما این فرایند یک تمرین خوب بنام “نظارت و مدیریت رویداد” در بخش “تمرینات مدیریت خدمات” در ITIL4 نقش خود را ایفا می‌کند. برای درک رویداد، استفاده از مفهوم کاربردی یک نرم‌افزار مانیتورینگ شبکه شاید بهترین تعریف باشد همانطور که می‌دانید از یک سیستم‌ نرم‌افزاری بنام مانیتورینگ برای نظارت بر عملکرد شبکه، ترافیک شبکه، زیرساخت‌ها و سرورها و سوئیچ‌ها استفاده می‌شود این ابزار وظیفه‌ی بررسی، نظارت بر صحت اجرای کلیه‌ی سخت‌افزارها، سرویس‌ها و زیرساخت‌های فناوری اطلاعات را برعهده دارد و از طریق ثبت وقایعی بنام رویداد سعی دارد تا شما را از کمّ و کیف عملکرد آنچه که رخ داده مطلع کند بطور مثال ارسال اطلاع‌رسانی‌ها، آلارم‌ها و پیام‌های هشدار و خطاهایی که در نرم‌افزارهای مانیتورینگ که به‌طور سیستماتیک ایجاد می‌شوند کمک می‌کند تا به گنجینه‌ای از آنچه که در لایه‌های زیرین شبکه در حال وقوع است، دست یابید و بر اساس اهمیت آنها تصمیمات لازم را اتخاذ و بهبود لازم را انجام دهید.

مقاله مرتبط در خصوص مدیریت رویداد چیست را بخوانید.

یک نرم‌افزار مانیتورینگ به‌خودی خود مفهوم کامل مدیریت رویداد را نمی‌رساند اما واسط ماست با CI-ها  در حقیقت ابزارهای نظارتی شبیه خبرنگارانی هستند که سعی دارند تا وضعیت تغییر داده شده در هر چیزی را به ما برسانند. نرم‌افزارهای مانیتورینگ قدم اول برای تکمیل اهداف مدیریت رویداد هستند. در کلامی دیگر هر سرویسی که بتواند وقایع عملکرد خود را از طریق یک اعلان به شما اطلاع دهد در حقیقت دارد یک رویداد ایجاد می‌کند. این یعنی آن سرویس بر اساس رویدادهایی که بر روی CI-ها در حال اتفاق است قادر است آنها را شناسایی و به سمع و نظر شما برساند و شما بر اساس این وقایع دریافت شده قادرید تا به سایر اهداف مدیریت رویداد که شامل: تجزیه و تحلیل و تعیین اقدامات کنترلی است اقدامات لازم را برای تحقق این اهداف به‌کار بگیرید، فرآیند مدیریت رویداد یک بستر مناسب برای تضمین عملکرد سرویس، گزارش‌گیری و بهبود آن است. در حقیقت این یعنی از لحظه‌ای که سیستم به شما اطلاعی در خصوص وضعیت فعلی یک سرویس می‌دهد و کیفیت عملکرد آنرا به اطلاع شما می‌رساند تا زمان بررسی شما و اتخاذ تصمیمات برای تضمین عملکرد سرویس و گزارشگیری و بهبود وضعیت و بستن نهایی آن، صفر تا صد فرایند مدیریت رویداد است.

مقاله‌ی مرتبط فرق رویداد با رخداد را بخوانید.

مطلب مرتبط:  دلایل کاهش ارزش فرآیندهای پشتیبانی در واحدهای غیر انفورماتیکی

بطور خلاصه تصویری که از این فرایند(تمرین) می‌توان در نظر داشت این است که پروسه‌ی مدیریت رویداد، فرایندی است که بر همه وقایعی که از طریق زیرساخت IT رخ می‌دهد نظارت دارد تا این امکان را برای عملکرد طبیعی آن فراهم سازد و همچنین شرایط استثناء را نیز شناسایی و افزایش می‌دهد.

یک رویداد می‌تواند به عنوان یک رخداد از پیش تعریف شده یا قابل تشخیص تعیین گردد.

مدیریت رویداد یکی از مهمترین روش‌ها برای مدیریت پیشگیرانه‌ی مشکل است این یعنی در صورتی که یک رویداد از نوع هشدار اعلام شود شما پیش از وقوع حوادث و مشکلات آتی قادرید تا بهبود لازم را انجام دهید. مثلاً اگر رویدادی مبنی بر اینکه ظرفیت هارد دیسک سرور اتوماسیون اداری ۹۰٪ است این یک رویداد است و عدم توجه به آن در کوتاه مدت می‌تواند منجر به حادثه و یا افت سرویس شود. بنابراین با اطلاع از این رویداد قادرید تا تمهیدات لازم را برای افزایش ظرفیت هارد سرور انجام دهید و مدیریت مشکل پیشگیرانه‌ای داشته باشید. یا اگر خطایی رخ داده این خطا به‌سرعت می‌تواند در فرایندهای مدیریت حادثه/مدیریت مشکل و مدیریت تغییر به گردش دربیاید پیش از آنکه کاربران اقدام به ثبت خرابی بکنند!

مقاله‌ی مدیریت واکنش‌گرا و مدیریت پیشگیرانه را بخوانید.

دقت کنید لزوماً تمامی رویدادها نشان‌دهنده‌ی وقوع خرابی در یک سرویس نیست بلکه هر پیامی که دریافت می‌شود یک رویداد است این یعنی آنچه روی داده است که می‌تواند موفقیت‌آمیز بودن عملکرد چیزی را به اطلاع برساند و یا اطلاعیه‌های جهت بهبود در آینده!

رویدادها به طور معمول اعلان‌هایی هستند که توسط یک سرویس، مورد پیکربندی (CI) یا ابزار نظارت ایجاد می‌شوند. به‌عبارتی دیگر سیستم‌های اطلاع‌رسانی، Event Logger-ها، نرم‌افزارهای نظارت بر ترافیک شبکه، نرم‌افزارهای پشتیبان‌گیری، نرم‌افزارهای مانیتورینگ شبکه، سیستم‌های امنیتی و… همگی می‌توانند از کلیه‌ی CI-‌های شبکه اعلانات مورد نظر را دریافت و تحت عنوان رویداد به اطلاع شما برسانند.

هدف از مدیریت رویداد

توانایی کشف و شناسایی رویدادها، کنترل صحیح عملکرد سرویس، و تحقق و تعیین عملکرد سرویس مهمترین اهدافی است که از این تمرین می‌توان انتظار داشت. با مدیریت رویداد می‌توان مکانیسم‌هایی را برای تشخیص زودهنگام حوادث فراهم کرد تا زمان رسیدگی و کاهش اثرات خرابی را به حداقل رساند.

اطلاع رسانی و شناسایی رویداد

اعلان‌های رویداد می‌توانند اختصاصی باشند، این یعنی می‌توان فقط از ابزارهای مدیریتی خاص برای شناسایی وقایع استفاده کرد. بسیاری از موارد پیکربندی (CI) با استفاده از پروتکل باز SNMP ( پروتکل مدیریت آسان شبکه)، اعلان‌های مربوط به رویداد را ایجاد می‌کنند. CI-ها برای ایجاد مجموعه‌ای از رویدادها بر اساس تجربه‌ی طراح تنظیم شده‌اند.هنگامی که یک اعلان رویداد ایجاد شد، توسط ابزار خاص شناسایی (خوانده و تفسیر می‌شود)

برای درک بهتر فرض کنید یک دوربین تحت شبکه در سازمان دارید که می‌خواهید عملکرد آنرا با مدیریت فرایند پیش ببرید، این دوربین شبکه نیز به مانند تمامی تجهیزات زیرساختی شبکه دارای IP است و به پروتکل SNMP هم مجهز است این پروتکل مجموعه‌ای از اطلاعات و تنظیمات تجهیز را در خود نگه می‌دارد. یک نرم‌افزار نظارتی از طریق این SNMP قادرست این اطلاعات را از آن تجهیز بخواند و تفسیر کند و هر اتفاقی که برای آن رخ دهد را با یک اعلان به اطلاع شما برساند تا  اقدامات لازم را انجام دهید و در دسترس‌پذیری و کیفیت عملکرد آن تجهیز را در بالاترین سطح نگاه دارید.

مطلب مرتبط:  کدامیک از پلتفرم های ITSM محبوب تر از همه است!؟

اهمیت رویداد

همانطور که گفته شد ماهیت یک اعلان رویداد می‌تواند: اطلاعات، هشدار یا استثنا باشد این مفاهیم یعنی اینکه طبق استانداردی مشخص می‌توان رویدادها را بر اساس اهمیت طبقه‌بندی کرد:

اطلاع (INFO): این رویداد نیازی به اقدام فوری ندارد و یک استثنا را نشان نمی‌دهد. بله در حقیقت وضعیت دستگاه یا خدمات، تأیید وضعیت فعالیت و  تولید آمار استفاده می‌شود نظیر: موفقیت‌آمیز بودن بک‌آپ گیری از یک دیتابیس، ورود کاربر، پایان یافتن یک کار، روشن شدن دستگاه، تعداد کاربران وارد شده به نرم‌افزار. اما این نوع رویداد بی‌اهمیت هم نیست بلکه طیفی از سوابق فعالیت‌ها را نشان می‌دهد که در آینده و در زمان‌های بحران می‌توانید به آنها رجوع کنید. نحوه‌ی رسیدگی به این نوع رویداد تنها به مطالعه‌کردن پیام و بستن آن ختم شود، کفایت می‌کند زیرا هدف این نوع رویداد صرفاً آگاه‌سازی شماست.

هشدار (WARN / ALERT): این رویداد هنگامی ایجاد می‌شود که یک دستگاه یا سرویس‌، (برنامه / ابزار)، به یک آستانه‌ی توافق شده ( KPI ) نزدیک می‌شود. هشدارها برای آگاه سازی گروه / فرآیند / ابزار به منظور انجام اقدامات لازم جهت جلوگیری از وقوع استثناء است. بطور مثال اگر میزان ظرفیت CPU یک سرور به ۹۹٪ رسید یک رویداد در این نقطه‌ی تحمل(آستانه)‌ به شما ارسال می‌شود. نحوه‌ی رسیدگی به این نوع رویداد به آماده‌باش شدن شما بر خواهد گشت تا با تمهیدات لازم جلوی پیامدهای مخرب که از آن به‌عنوان مدیریت حادثه یا مشکل یاد می‌کنیم را بگیرد. بنابراین هدف این نوع رویداد علاوه بر آگاه‌سازی شما، آمادگی شما را هم طلب خواهد کرد.

استثنا (ERROR): به این معنی است که یک سرویس یا دستگاه در حال حاضر زیر پارامترهای / شاخص های عادی (از پیش تعریف شده) کار می کند. این بدان معناست که سرویس تجاری تحت تأثیر قرار می گیرد و دستگاه یا خدمات یک خرابی ، تخریب عملکرد یا از بین رفتن عملکرد را نشان می دهند (سرور وب ، پوشش CS از بین رفته برای چندین سایت). خطای دستگاه خطا است. نحوه‌ی رسیدگی به این نوع رویداد به اقدام فوری شما بر خواهد گشت تا سریعاً وضعیت سلامت و کارایی و کیفیت سرویس را به حالت نخست بازگردانید.بنابراین هدف این نوع رویداد علاوه بر آگاه‌سازی شما، آمادگی، انجام اقدامات فوری را هم در بر خواهد گرفت.

پاسخ به رویدادها

در هر مرحله از فرآیند مدیریت رویداد و بسته به نوع اهمیت آن رویداد، تعدادی از گزینه‌های پاسخگویی در دسترس هستند. برخی از گزینه‌های موجود عبارتند از:

ثبت وقایع: صرف نظر از نوع رویداد، یک عمل خوب باید برای ثبت رویداد و اقدامات انجام شده باشد. این رویداد می‌تواند به عنوان یک ضبط رویداد وارد شود یا می‌تواند به عنوان ورودی در سیستم سیستم دستگاه باقی بماند.

هشدار و مداخله‌ی انسانی: برای رویدادهایی که به مداخله‌ی انسان نیاز دارد، باید این رویداد رو به افزایش باشد. هدف از هشدار، اطلاع‌رسانی به منبع صحیح (شخص) برای رسیدگی به این رویداد است.

مطلب مرتبط:  مدیریت خدمات در سال ۲۰۲۰

ثبت حادثه: با شناسایی یک استثناء، می‌توان حادثه یا یک مشکل و حتی یک تغییر را ایجاد کرد.

بستن رویداد

یک رویداد در نهایت یا بطور خودکار بسته می‌شود یا پس از تعیین آن به‌عنوان حادثه، مشکل یا تغییر در پروسه‌ی اجرایی عملیات کارکنان فناوری قرار خواهد گرفت و در نهایت بسته خواهد شد.

اساساً بجز نوع رویداد اطلاع INFO، رویدادهایی از جنس هشدار و استثنا به‌شدت در مدیریت پیشگیرانه می‌توانند کارساز باشند. مهم این است که آن اتفاق ناگوار رخ ندهد!

تبدیل رویداد استثنا و هشدار به اطلاع

بسیاری از نرم‌افزارهای مانیتورینگ حرفه‌ای دارای گردشکارهای داخلی هستند این یعنی با اتوماسیون هوشمند تعبیه شده در آن می‌تواند بسیاری از اقدامات پیشگیرانه را نه صرفاً بطور انسانی بلکه از طریق خودکار سازی انجام داد و از تخصیص نیروهای NOC‌ بیشتر برای مدیریت شبکه جلوگیری کنید. برای درک این مسئله به این سناریو دقت کنید.

فرض کنید آستانه‌ی تحمل پر شدن ظرفیت هارد فایل سرور را روی ۹۰٪ گذاشته‌اید با رسیدن به این آستانه ابزار مایتورینگ در حال ایجاد یک اعلان هشدار است اما بجای آنکه شما را وارد به انجام کاری بکند، در چنین شرایطی با افزودن یک گردشکار از قبل و یک اقدام سیستمی می‌توان در صورت رسیدن به این آستانه، نرم‌افزار مانیتورینگ یک Job را روی سرور VM فایل سرور اجرا و ظرفیت هارد آنرا به دوبرابر ظرفیت جاری افزایش دهد. بنابراین صرفاً موفقیت‌آمیز بودن این اجرای خودکار را به سمع و نظر شما می‌رساند که به نوعی تبدیل یک اعلان هشدار به اعلان اطلاع است!

در سناریوی بعد فرض کنید سازمان دارای دو لینک ارتباطی برای یک سرور خاص است بدیهی است تمام ارتباطات کاربران با این سرور در وهله‌ی نخست روی یکی از این لینک‌ها سوار است، در هنگام قطعی این لینک، یک رویداد(اعلان استثنا) ثبت می‌شود مبنی بر Down شدن سرور! که نیاز هست! در حالی که بجای آنکه شما را وارد به انجام کاری بکند، در چنین شرایطی با افزودن یک گردشکار از قبل و یک اقدام سیستمی می‌توان در صورت رسیدن به این شرایط، نرم‌افزار مانیتورینگ پس از انتظاری چند دقیقه، یک سرور موازی FOS – Fail Over Service را روی بالا بیاورد و پایداری سرویس را در بالاترین حد نگاه دارد. شبیه این تفکر در Spanning Tree در کانفیگ روترهای سیسکو را قبلا دیده و شنیده‌اید. در این حالت صرفاً موفقیت‌آمیز بودن این اجرای خودکار را به سمع و نظر شما می‌رساند که به نوعی تبدیل یک اعلان استثنا به اعلان اطلاع است!

مدیریت رویداد تفکر هوشمندانه‌ای را می‌طلبد تا با خودکارسازی بسیاری از فعالیت‌های انسانی و دستی علاوه بر پیشگیری از وقوع اتفاقات ناخوشایند، پایداری و در دسترس‌پذیری سرویس‌ها را در بالاترین کیفیت ممکن نگه داریم.

این نکته را مجدد فراموش نکنید هر کاری که دوبار انجام می‌شود نیازمند یک فرایند سیستماتیک دارد! و باید به نقطه‌ای برسید که خبر بد را به خبر خوب تبدیل کنید!

هادی احمدی

مدانت
مدانت
شرکت‌ مدانت از برندهای محبوب فناوری‌ اطلاعات و ارتباطات در حوزه‌ی آموزش، پیاده‌سازی و عرضه ابزار ITIL، تجارت آنلاین و ارایه‌ی محصولات مدیریتی تحت‌وب در ایران است. این شرکت اهم خدمات و تجارت خود را بر پایه‌ی بومی‌سازی سرویس‌های نوین، به‌ویژه محصولات ManageEngine بنا نهاده و قریب ۸ سال فعالیت منسجم، توانسته حداکثر رضایت مشتریان را کسب کند. فروش و استقرار نرم‌افزار سرویس‌دسک‌پلاس (محبوب‌ترین ابزارهای پیاده‌سازی ITIL‌ در جهان) در بیش از 500 سازمان کشور، برگ افتخاری است که مدانت به پاس انتخاب اندیشمندانه‌ی مشتریان خود، به آن نائل آمده است. مدانت با ارایه محصولات باکیفیت، پاسخگویی آنلاین، پشتیبانی متمرکز، مشاوره دقیق و هزینه مناسب نسبت به سایر راهکارهای مشابه، جایگاه ویژه‌ای در بین مدیران ارشد، مدیران انفورماتیک و کارشناسان سازمان ها بدست آورده است و تحقق این مهم به نگاه تیزبین و حمایت مشتریان عزیزی است که همواره مدانت را از همراهی خود بی نصیب نگذاشته‌اند و ضوابط را فدای روابط نکرده‌اند.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

حل معادله *

error: نیازی به کپی نیست همه چیز در دیدرس شماست