مقالهی مدیریت واکنشگرا و مدیریت پیشگیرانه را بخوانید.
دقت کنید لزوماً تمامی رویدادها نشاندهندهی وقوع خرابی در یک سرویس نیست بلکه هر پیامی که دریافت میشود یک رویداد است این یعنی آنچه روی داده است که میتواند موفقیتآمیز بودن عملکرد چیزی را به اطلاع برساند و یا اطلاعیههای جهت بهبود در آینده!
رویدادها به طور معمول اعلانهایی هستند که توسط یک سرویس، مورد پیکربندی (CI) یا ابزار نظارت ایجاد میشوند. بهعبارتی دیگر سیستمهای اطلاعرسانی، Event Logger-ها، نرمافزارهای نظارت بر ترافیک شبکه، نرمافزارهای پشتیبانگیری، نرمافزارهای مانیتورینگ شبکه، سیستمهای امنیتی و... همگی میتوانند از کلیهی CI-های شبکه اعلانات مورد نظر را دریافت و تحت عنوان رویداد به اطلاع شما برسانند.
هدف از مدیریت رویداد
توانایی کشف و شناسایی رویدادها، کنترل صحیح عملکرد سرویس، و تحقق و تعیین عملکرد سرویس مهمترین اهدافی است که از این تمرین میتوان انتظار داشت. با مدیریت رویداد میتوان مکانیسمهایی را برای تشخیص زودهنگام حوادث فراهم کرد تا زمان رسیدگی و کاهش اثرات خرابی را به حداقل رساند.
اطلاع رسانی و شناسایی رویداد
اعلانهای رویداد میتوانند اختصاصی باشند، این یعنی میتوان فقط از ابزارهای مدیریتی خاص برای شناسایی وقایع استفاده کرد. بسیاری از موارد پیکربندی (CI) با استفاده از پروتکل باز SNMP ( پروتکل مدیریت آسان شبکه)، اعلانهای مربوط به رویداد را ایجاد میکنند. CI-ها برای ایجاد مجموعهای از رویدادها بر اساس تجربهی طراح تنظیم شدهاند.هنگامی که یک اعلان رویداد ایجاد شد، توسط ابزار خاص شناسایی (خوانده و تفسیر میشود)
برای درک بهتر فرض کنید یک دوربین تحت شبکه در سازمان دارید که میخواهید عملکرد آنرا با مدیریت فرایند پیش ببرید، این دوربین شبکه نیز به مانند تمامی تجهیزات زیرساختی شبکه دارای IP است و به پروتکل SNMP هم مجهز است این پروتکل مجموعهای از اطلاعات و تنظیمات تجهیز را در خود نگه میدارد. یک نرمافزار نظارتی از طریق این SNMP قادرست این اطلاعات را از آن تجهیز بخواند و تفسیر کند و هر اتفاقی که برای آن رخ دهد را با یک اعلان به اطلاع شما برساند تا اقدامات لازم را انجام دهید و در دسترسپذیری و کیفیت عملکرد آن تجهیز را در بالاترین سطح نگاه دارید.
اهمیت رویداد
همانطور که گفته شد ماهیت یک اعلان رویداد میتواند: اطلاعات، هشدار یا استثنا باشد این مفاهیم یعنی اینکه طبق استانداردی مشخص میتوان رویدادها را بر اساس اهمیت طبقهبندی کرد:
اطلاع (INFO): این رویداد نیازی به اقدام فوری ندارد و یک استثنا را نشان نمیدهد. بله در حقیقت وضعیت دستگاه یا خدمات، تأیید وضعیت فعالیت و تولید آمار استفاده میشود نظیر: موفقیتآمیز بودن بکآپ گیری از یک دیتابیس، ورود کاربر، پایان یافتن یک کار، روشن شدن دستگاه، تعداد کاربران وارد شده به نرمافزار. اما این نوع رویداد بیاهمیت هم نیست بلکه طیفی از سوابق فعالیتها را نشان میدهد که در آینده و در زمانهای بحران میتوانید به آنها رجوع کنید. نحوهی رسیدگی به این نوع رویداد تنها به مطالعهکردن پیام و بستن آن ختم شود، کفایت میکند زیرا هدف این نوع رویداد صرفاً آگاهسازی شماست.
هشدار (WARN / ALERT): این رویداد هنگامی ایجاد میشود که یک دستگاه یا سرویس، (برنامه / ابزار)، به یک آستانهی توافق شده ( KPI ) نزدیک میشود. هشدارها برای آگاه سازی گروه / فرآیند / ابزار به منظور انجام اقدامات لازم جهت جلوگیری از وقوع استثناء است. بطور مثال اگر میزان ظرفیت CPU یک سرور به ۹۹٪ رسید یک رویداد در این نقطهی تحمل(آستانه) به شما ارسال میشود. نحوهی رسیدگی به این نوع رویداد به آمادهباش شدن شما بر خواهد گشت تا با تمهیدات لازم جلوی پیامدهای مخرب که از آن بهعنوان مدیریت حادثه یا مشکل یاد میکنیم را بگیرد. بنابراین هدف این نوع رویداد علاوه بر آگاهسازی شما، آمادگی شما را هم طلب خواهد کرد.
استثنا (ERROR): به این معنی است که یک سرویس یا دستگاه در حال حاضر زیر پارامترهای / شاخص های عادی (از پیش تعریف شده) کار می کند. این بدان معناست که سرویس تجاری تحت تأثیر قرار می گیرد و دستگاه یا خدمات یک خرابی ، تخریب عملکرد یا از بین رفتن عملکرد را نشان می دهند (سرور وب ، پوشش CS از بین رفته برای چندین سایت). خطای دستگاه خطا است. نحوهی رسیدگی به این نوع رویداد به اقدام فوری شما بر خواهد گشت تا سریعاً وضعیت سلامت و کارایی و کیفیت سرویس را به حالت نخست بازگردانید.بنابراین هدف این نوع رویداد علاوه بر آگاهسازی شما، آمادگی، انجام اقدامات فوری را هم در بر خواهد گرفت.
ادامه مطلب در صفحه بعد…
[…] مقاله مرتبط: مدیریت مشکل با مدیریت رویداد […]
[…] مدیریت پیشگیرانه مشکل با مدیریت رویداد […]
[…] مدیریت پیشگیرانه مشکل با مدیریت رویداد […]