تمامی اخباری که به هر شکلی به دست ما میرسند حاوی پیامهایی هستند که از سه حالت خارج نیستند یا خبر مسرتبخشی است یا نگرانکننده و یا ناامیدکننده!
با شنیدن این اخبار گاهی بیتفاوت بودن، گاه لبخند زدن، گاهی آماده بودن و در نهایت گاهی دست به اقدامی فوری زدن تمام واکنش ما به آن خواهد بود.
در جهان فناوری اطلاعات و ITIL هم همین اخبار در سه حالت: اطلاع، هشدار، خطا توسط سیستمها و سرویسها به گوش ما میرسند که به آن رویداد میگویند و به اندازهی اخبار پیرامون ما، رویداد تولید میشود.
مدیریت رویداد، در بخش عملیات خدمت و یکی از فرایندهای مهم تعریف شده در ITIL3 است اما این فرایند یک تمرین خوب بنام “نظارت و مدیریت رویداد” در بخش “تمرینات مدیریت خدمات” در ITIL4 نقش خود را ایفا میکند. برای درک رویداد، استفاده از مفهوم کاربردی یک نرمافزار مانیتورینگ شبکه شاید بهترین تعریف باشد همانطور که میدانید از یک سیستم نرمافزاری بنام مانیتورینگ برای نظارت بر عملکرد شبکه، ترافیک شبکه، زیرساختها و سرورها و سوئیچها استفاده میشود این ابزار وظیفهی بررسی، نظارت بر صحت اجرای کلیهی سختافزارها، سرویسها و زیرساختهای فناوری اطلاعات را برعهده دارد و از طریق ثبت وقایعی بنام رویداد سعی دارد تا شما را از کمّ و کیف عملکرد آنچه که رخ داده مطلع کند بطور مثال ارسال اطلاعرسانیها، آلارمها و پیامهای هشدار و خطاهایی که در نرمافزارهای مانیتورینگ که بهطور سیستماتیک ایجاد میشوند کمک میکند تا به گنجینهای از آنچه که در لایههای زیرین شبکه در حال وقوع است، دست یابید و بر اساس اهمیت آنها تصمیمات لازم را اتخاذ و بهبود لازم را انجام دهید.
مقاله مرتبط در خصوص مدیریت رویداد چیست را بخوانید.
یک نرمافزار مانیتورینگ بهخودی خود مفهوم کامل مدیریت رویداد را نمیرساند اما واسط ماست با CI-ها در حقیقت ابزارهای نظارتی شبیه خبرنگارانی هستند که سعی دارند تا وضعیت تغییر داده شده در هر چیزی را به ما برسانند. نرمافزارهای مانیتورینگ قدم اول برای تکمیل اهداف مدیریت رویداد هستند. در کلامی دیگر هر سرویسی که بتواند وقایع عملکرد خود را از طریق یک اعلان به شما اطلاع دهد در حقیقت دارد یک رویداد ایجاد میکند. این یعنی آن سرویس بر اساس رویدادهایی که بر روی CI-ها در حال اتفاق است قادر است آنها را شناسایی و به سمع و نظر شما برساند و شما بر اساس این وقایع دریافت شده قادرید تا به سایر اهداف مدیریت رویداد که شامل: تجزیه و تحلیل و تعیین اقدامات کنترلی است اقدامات لازم را برای تحقق این اهداف بهکار بگیرید، فرآیند مدیریت رویداد یک بستر مناسب برای تضمین عملکرد سرویس، گزارشگیری و بهبود آن است. در حقیقت این یعنی از لحظهای که سیستم به شما اطلاعی در خصوص وضعیت فعلی یک سرویس میدهد و کیفیت عملکرد آنرا به اطلاع شما میرساند تا زمان بررسی شما و اتخاذ تصمیمات برای تضمین عملکرد سرویس و گزارشگیری و بهبود وضعیت و بستن نهایی آن، صفر تا صد فرایند مدیریت رویداد است.
مقالهی مرتبط فرق رویداد با رخداد را بخوانید.
بطور خلاصه تصویری که از این فرایند(تمرین) میتوان در نظر داشت این است که پروسهی مدیریت رویداد، فرایندی است که بر همه وقایعی که از طریق زیرساخت IT رخ میدهد نظارت دارد تا این امکان را برای عملکرد طبیعی آن فراهم سازد و همچنین شرایط استثناء را نیز شناسایی و افزایش میدهد.
یک رویداد میتواند به عنوان یک رخداد از پیش تعریف شده یا قابل تشخیص تعیین گردد.
مدیریت رویداد یکی از مهمترین روشها برای مدیریت پیشگیرانهی مشکل است این یعنی در صورتی که یک رویداد از نوع هشدار اعلام شود شما پیش از وقوع حوادث و مشکلات آتی قادرید تا بهبود لازم را انجام دهید. مثلاً اگر رویدادی مبنی بر اینکه ظرفیت هارد دیسک سرور اتوماسیون اداری ۹۰٪ است این یک رویداد است و عدم توجه به آن در کوتاه مدت میتواند منجر به حادثه و یا افت سرویس شود. بنابراین با اطلاع از این رویداد قادرید تا تمهیدات لازم را برای افزایش ظرفیت هارد سرور انجام دهید و مدیریت مشکل پیشگیرانهای داشته باشید. یا اگر خطایی رخ داده این خطا بهسرعت میتواند در فرایندهای مدیریت حادثه/مدیریت مشکل و مدیریت تغییر به گردش دربیاید پیش از آنکه کاربران اقدام به ثبت خرابی بکنند!
مقالهی مدیریت واکنشگرا و مدیریت پیشگیرانه را بخوانید.
دقت کنید لزوماً تمامی رویدادها نشاندهندهی وقوع خرابی در یک سرویس نیست بلکه هر پیامی که دریافت میشود یک رویداد است این یعنی آنچه روی داده است که میتواند موفقیتآمیز بودن عملکرد چیزی را به اطلاع برساند و یا اطلاعیههای جهت بهبود در آینده!
رویدادها به طور معمول اعلانهایی هستند که توسط یک سرویس، مورد پیکربندی (CI) یا ابزار نظارت ایجاد میشوند. بهعبارتی دیگر سیستمهای اطلاعرسانی، Event Logger-ها، نرمافزارهای نظارت بر ترافیک شبکه، نرمافزارهای پشتیبانگیری، نرمافزارهای مانیتورینگ شبکه، سیستمهای امنیتی و… همگی میتوانند از کلیهی CI-های شبکه اعلانات مورد نظر را دریافت و تحت عنوان رویداد به اطلاع شما برسانند.
توانایی کشف و شناسایی رویدادها، کنترل صحیح عملکرد سرویس، و تحقق و تعیین عملکرد سرویس مهمترین اهدافی است که از این تمرین میتوان انتظار داشت. با مدیریت رویداد میتوان مکانیسمهایی را برای تشخیص زودهنگام حوادث فراهم کرد تا زمان رسیدگی و کاهش اثرات خرابی را به حداقل رساند.
اعلانهای رویداد میتوانند اختصاصی باشند، این یعنی میتوان فقط از ابزارهای مدیریتی خاص برای شناسایی وقایع استفاده کرد. بسیاری از موارد پیکربندی (CI) با استفاده از پروتکل باز SNMP ( پروتکل مدیریت آسان شبکه)، اعلانهای مربوط به رویداد را ایجاد میکنند. CI-ها برای ایجاد مجموعهای از رویدادها بر اساس تجربهی طراح تنظیم شدهاند.هنگامی که یک اعلان رویداد ایجاد شد، توسط ابزار خاص شناسایی (خوانده و تفسیر میشود)
برای درک بهتر فرض کنید یک دوربین تحت شبکه در سازمان دارید که میخواهید عملکرد آنرا با مدیریت فرایند پیش ببرید، این دوربین شبکه نیز به مانند تمامی تجهیزات زیرساختی شبکه دارای IP است و به پروتکل SNMP هم مجهز است این پروتکل مجموعهای از اطلاعات و تنظیمات تجهیز را در خود نگه میدارد. یک نرمافزار نظارتی از طریق این SNMP قادرست این اطلاعات را از آن تجهیز بخواند و تفسیر کند و هر اتفاقی که برای آن رخ دهد را با یک اعلان به اطلاع شما برساند تا اقدامات لازم را انجام دهید و در دسترسپذیری و کیفیت عملکرد آن تجهیز را در بالاترین سطح نگاه دارید.
همانطور که گفته شد ماهیت یک اعلان رویداد میتواند: اطلاعات، هشدار یا استثنا باشد این مفاهیم یعنی اینکه طبق استانداردی مشخص میتوان رویدادها را بر اساس اهمیت طبقهبندی کرد:
اطلاع (INFO): این رویداد نیازی به اقدام فوری ندارد و یک استثنا را نشان نمیدهد. بله در حقیقت وضعیت دستگاه یا خدمات، تأیید وضعیت فعالیت و تولید آمار استفاده میشود نظیر: موفقیتآمیز بودن بکآپ گیری از یک دیتابیس، ورود کاربر، پایان یافتن یک کار، روشن شدن دستگاه، تعداد کاربران وارد شده به نرمافزار. اما این نوع رویداد بیاهمیت هم نیست بلکه طیفی از سوابق فعالیتها را نشان میدهد که در آینده و در زمانهای بحران میتوانید به آنها رجوع کنید. نحوهی رسیدگی به این نوع رویداد تنها به مطالعهکردن پیام و بستن آن ختم شود، کفایت میکند زیرا هدف این نوع رویداد صرفاً آگاهسازی شماست.
هشدار (WARN / ALERT): این رویداد هنگامی ایجاد میشود که یک دستگاه یا سرویس، (برنامه / ابزار)، به یک آستانهی توافق شده ( KPI ) نزدیک میشود. هشدارها برای آگاه سازی گروه / فرآیند / ابزار به منظور انجام اقدامات لازم جهت جلوگیری از وقوع استثناء است. بطور مثال اگر میزان ظرفیت CPU یک سرور به ۹۹٪ رسید یک رویداد در این نقطهی تحمل(آستانه) به شما ارسال میشود. نحوهی رسیدگی به این نوع رویداد به آمادهباش شدن شما بر خواهد گشت تا با تمهیدات لازم جلوی پیامدهای مخرب که از آن بهعنوان مدیریت حادثه یا مشکل یاد میکنیم را بگیرد. بنابراین هدف این نوع رویداد علاوه بر آگاهسازی شما، آمادگی شما را هم طلب خواهد کرد.
استثنا (ERROR): به این معنی است که یک سرویس یا دستگاه در حال حاضر زیر پارامترهای / شاخص های عادی (از پیش تعریف شده) کار می کند. این بدان معناست که سرویس تجاری تحت تأثیر قرار می گیرد و دستگاه یا خدمات یک خرابی ، تخریب عملکرد یا از بین رفتن عملکرد را نشان می دهند (سرور وب ، پوشش CS از بین رفته برای چندین سایت). خطای دستگاه خطا است. نحوهی رسیدگی به این نوع رویداد به اقدام فوری شما بر خواهد گشت تا سریعاً وضعیت سلامت و کارایی و کیفیت سرویس را به حالت نخست بازگردانید.بنابراین هدف این نوع رویداد علاوه بر آگاهسازی شما، آمادگی، انجام اقدامات فوری را هم در بر خواهد گرفت.
در هر مرحله از فرآیند مدیریت رویداد و بسته به نوع اهمیت آن رویداد، تعدادی از گزینههای پاسخگویی در دسترس هستند. برخی از گزینههای موجود عبارتند از:
ثبت وقایع: صرف نظر از نوع رویداد، یک عمل خوب باید برای ثبت رویداد و اقدامات انجام شده باشد. این رویداد میتواند به عنوان یک ضبط رویداد وارد شود یا میتواند به عنوان ورودی در سیستم سیستم دستگاه باقی بماند.
هشدار و مداخلهی انسانی: برای رویدادهایی که به مداخلهی انسان نیاز دارد، باید این رویداد رو به افزایش باشد. هدف از هشدار، اطلاعرسانی به منبع صحیح (شخص) برای رسیدگی به این رویداد است.
ثبت حادثه: با شناسایی یک استثناء، میتوان حادثه یا یک مشکل و حتی یک تغییر را ایجاد کرد.
یک رویداد در نهایت یا بطور خودکار بسته میشود یا پس از تعیین آن بهعنوان حادثه، مشکل یا تغییر در پروسهی اجرایی عملیات کارکنان فناوری قرار خواهد گرفت و در نهایت بسته خواهد شد.
اساساً بجز نوع رویداد اطلاع INFO، رویدادهایی از جنس هشدار و استثنا بهشدت در مدیریت پیشگیرانه میتوانند کارساز باشند. مهم این است که آن اتفاق ناگوار رخ ندهد!
بسیاری از نرمافزارهای مانیتورینگ حرفهای دارای گردشکارهای داخلی هستند این یعنی با اتوماسیون هوشمند تعبیه شده در آن میتواند بسیاری از اقدامات پیشگیرانه را نه صرفاً بطور انسانی بلکه از طریق خودکار سازی انجام داد و از تخصیص نیروهای NOC بیشتر برای مدیریت شبکه جلوگیری کنید. برای درک این مسئله به این سناریو دقت کنید.
فرض کنید آستانهی تحمل پر شدن ظرفیت هارد فایل سرور را روی ۹۰٪ گذاشتهاید با رسیدن به این آستانه ابزار مایتورینگ در حال ایجاد یک اعلان هشدار است اما بجای آنکه شما را وارد به انجام کاری بکند، در چنین شرایطی با افزودن یک گردشکار از قبل و یک اقدام سیستمی میتوان در صورت رسیدن به این آستانه، نرمافزار مانیتورینگ یک Job را روی سرور VM فایل سرور اجرا و ظرفیت هارد آنرا به دوبرابر ظرفیت جاری افزایش دهد. بنابراین صرفاً موفقیتآمیز بودن این اجرای خودکار را به سمع و نظر شما میرساند که به نوعی تبدیل یک اعلان هشدار به اعلان اطلاع است!
در سناریوی بعد فرض کنید سازمان دارای دو لینک ارتباطی برای یک سرور خاص است بدیهی است تمام ارتباطات کاربران با این سرور در وهلهی نخست روی یکی از این لینکها سوار است، در هنگام قطعی این لینک، یک رویداد(اعلان استثنا) ثبت میشود مبنی بر Down شدن سرور! که نیاز هست! در حالی که بجای آنکه شما را وارد به انجام کاری بکند، در چنین شرایطی با افزودن یک گردشکار از قبل و یک اقدام سیستمی میتوان در صورت رسیدن به این شرایط، نرمافزار مانیتورینگ پس از انتظاری چند دقیقه، یک سرور موازی FOS – Fail Over Service را روی بالا بیاورد و پایداری سرویس را در بالاترین حد نگاه دارد. شبیه این تفکر در Spanning Tree در کانفیگ روترهای سیسکو را قبلا دیده و شنیدهاید. در این حالت صرفاً موفقیتآمیز بودن این اجرای خودکار را به سمع و نظر شما میرساند که به نوعی تبدیل یک اعلان استثنا به اعلان اطلاع است!
مدیریت رویداد تفکر هوشمندانهای را میطلبد تا با خودکارسازی بسیاری از فعالیتهای انسانی و دستی علاوه بر پیشگیری از وقوع اتفاقات ناخوشایند، پایداری و در دسترسپذیری سرویسها را در بالاترین کیفیت ممکن نگه داریم.
این نکته را مجدد فراموش نکنید هر کاری که دوبار انجام میشود نیازمند یک فرایند سیستماتیک دارد! و باید به نقطهای برسید که خبر بد را به خبر خوب تبدیل کنید!
[…] مقاله مرتبط: مدیریت مشکل با مدیریت رویداد […]
[…] مدیریت پیشگیرانه مشکل با مدیریت رویداد […]
[…] مدیریت پیشگیرانه مشکل با مدیریت رویداد […]