alt

RESOURCES

כיצד לייעל את תהליכי ה-Incident Management עם כלי Atlassian

Atlassian Team, matrix DevOps

December 26, 2023

היי קהילת Atlassian,
כשותף המוביל של Atlassian בישראל, אנחנו שמחים להציג את סדרת המאמרים שלנו. מטרת הסדרה היא שיתוף הידע המקצועי הרב שצברנו עם השנים, עדכון בחידושים רלוונטיים ושיתוף התובנות על האקוסיסטם המגוון של Atlassian.
במאמר הראשון בחרנו להתמקד ב- Opsgenie ו-StatusPage והקשר ביניהם  בניהול תהליכים של Incident Management.


  1. משמעות ה-Incident Management

העידן הדיגיטלי מביא איתו הזדמנויות רבות, אך גם אתגרים חדשים. אחד האתגרים המשמעותיים הוא היכולת להתמודד במהירות וביעילות עם אירועים בלתי צפויים כגון: תקלות במערכת, התקפות סייבר או שינויים רגולטוריים. Incident Management הוא התהליך של איסוף המידע על האירוע, ניתוח המידע, תיקון הבעיה ושיקוף האירוע ללקוחות ועובדים.

אז איך עושים את זה נכון?

כפי שציינו קודם, המרחב הדיגיטלי מאופיין בין היתר בשינויים מהירים בלתי צפויים. על מנת למזער את האי-וודאות ולנהל את ה-Incident management באופן יעיל ,להלן כמה תהליכי יסוד מומלצים:

הגדרת תהליכים ברורה: לכל חבר צוות צריכים להיות הגדרת אחריות והגדרות תפקיד  ברורים כדי שהכול יעבוד בצורה חלקה ויעילה בעת מתן מענה לאירועים.

קביעת סדר עדיפויות: האירועים צריכים להיות מחולקים וממוינים על פי חשיבותם וחומרתם על מנת  שהאירועים הקריטיים ביותר יטופלו ראשונים.

תקשורת יעילה: על כל בעלי העניין להיות מעודכנים לגבי האירוע. זה כולל לקוחות, עובדים וגורמים נוספים שיכולים להיות מעורבים. תקשורת יעילה תסייע למזער את ההשפעה של האירוע ולשמר את האמון בין הגורמים.

הפקת לקחים לאחר האירוע: הפקת לקחים וניתוח מעמיק של האירוע עוזרים לזהות את המחדל העיקרי, לקצר את הזמן לפתרון במקרה דומה בעתיד ולמנוע מאירועים דומים להתרחש שנית ע”י שימוש ב- postmortem. הניתוח צריך להתבצע על ידי צוות מומחים ולכלול את סיבת המחדל והמלצות לשיפור.

Atlassian – מובילים את תחום ה-Incident Management עם Opsgenie ו-Statuspage.

Opsgenie – פלטפורמה מקיפה המרכזת ומנהלת את כל ההתראות. עם תכונות כמו התראות בזמן אמת וזמני מענה, היא מאפשרת מתן תגובות לאירועים בזמן הקצר ביותר. ההתרעות החכמות מבוססות על ניתוח דטה כדי לייצר תיעדוף בין ההתראות בצורה היעילה ביותר. ל-Opsgenie יש אינטגרציה עם למעלה מ-200 מערכות ניטור.

Statuspage – הינו ההשלמה האופטימלית עבור Opsgenie. הוא משקף מידע מפורט לכל בעלי עניין (כולל ארגונים ולקוחות) במהלך אירוע ולאחר סיומו, ובכך שומר על שקיפות ומעדכן על סטטוס האירוע בכל רגע נתון.

סינרגיה עם Jira: ייעול תהליך Incident Managemet

השילוב של Opsgenie ו-Statuspage עם Jira Service Management מאפשר לשפר את תהליך הטיפול באירועים.  Opsgenie מאפשר לפתוח ticket ב JSM באופן אוטומטי עבור כל התראה/תקלה ולאפשר לצוותים הרלוונטים לשתף פעולת בטיפול בהתראה/תקלה. Statuspage מספק עדכונים בזמן אמת  לכל בעלי העניין המעורבים ומבטיח שקיפות ומעקב שוטף בכל רגע נתון.

לסיכום:

בעידן הדיגיטלי, תחום ה Incident management כבר אינו מותרות. על מנת לסייע לכם להתמודד עם האתגרים הבלתי צפויים, לפתור תקלות, להפיק לקחים ולשמור על אמון הלקוחות, אטלסיאן מספקת כלים מהמובילים בתחום כגון: Opsgenie,  Statuspage ו-JSM. אנחנו במטריקס DevOps נשמח לעזור לכם לנווט באקוסיסטם המגוון של Atlassian ולהביא את היתרונות הייחודיים של הכלים האלה לידי ביטוי.

שמרו על עצמכם והשארו מעודכנים.

רוצים לשאול אותנו על זה? כתבו לנו ל-devops@matrix.com ונעזור בכל שאלה שיש