IT 部门事件管理模式建立分析
1、研究背景和意義
IT 服務的最佳理論實踐是 ITIL,ITIL 已經成為了解 IT 服務最簡單直接的一套方法論。IT 服務管理簡稱為:ITSM。ITIL 為 ITSM 提供了專業術語和流程指導,告訴我們應該怎么去做 IT 服務,而 ITSM 是落地的 IT 服務,不停的在流程中被使用。ITSM 是已經存在的且以 ITIL 為指導更趨向合理的一套 IT 服務管理。兩者的關系可以匯總為 ITIL 是標準,是為?ITSM 提供流程和準則的,ITSM 是實踐過程中依據標準而落地執行的服務提供。這兩者都是科技發展到一定階段的信息化產物,是 IT 以服務的形式體現的一套標準和規范。
IT 服務管理的難點就在于管理的無序和被動,無法透明化或可視化,技術人員的服務意識差,效率低且 IT 人員的成本高;IT 服務的風險也是很大的,諸如:云計算的興起讓云中心服務的中斷變成業務的災難。
核心應用系統錯綜復雜經常中斷,難于管理,經常是事后救火,此種情況導致的業務損失難以彌補或估算,錯綜復雜的信息系統故障難于定位,相應管理跟蹤和處理,一不小心就成了企業隨時爆炸的火藥桶和負擔。在這種情況下對 IT 服務管理中事件的管理作為最為關鍵的一環就顯得尤為重要。
2、事件管理的概念
ITIL 中 IT 的服務管理包含服務臺管理、事件管理、問題管理、變更管理、配置管理、發布管理、服務級別管理等。事件管理作為 IT 服務管理中重要的一環,幾乎所有的公司都對事件管理做了管理規定。有些公司還沿用老的叫法只把最為重大的事件單獨做管理規范,稱為故障管理。其他非重要級別的、例行事件類型稱其為服務請求管理。也有公司沿用 ITIL 管理叫做事件管理。但事件管理有一個共性在于以快速解決表象為目的,而不在于查找根本原因。因此時效性成為其評價標準。
2.1 事件管理流程的定義
什么是事件管理呢?ITIL 中定義的事件管理流程是 ITIL 主要流程之一,它的主要目標是盡快解決日常工作環境中出現的事件,保持 IT 服務的穩定性,監控事件的發展,并在事 件得到解決之后將其關閉。
事件往往是表面的問題,如果出現普遍的事件時,比如:無法獲得 IP 地址、收發不了郵件,要調查下根因,這時就上升為問題管理。如果批量的出現此類事件可升級事件級別。按照重大事件的優先級進行事件管理流程管控。但無論普通還是重大的事件根因的排查都在 問題管理流程中。
2.2 事件升級
這里還需要指出升級的概念,升級的目的在于需要時獲得公司額外的資源支持,以達到服務級別目標或客戶期望的活動。任何服務管理流程內部都可以升級,但升級常常與事件管理、問題管理和有關客戶投訴的管理有關聯。主要有兩種類型的升級:技術升級和管理升級。
管理升級容易理解,即通知更多高級管理人員,也就是邀請他們參與更加疑難問題的排查。
技術升級是指將事件、問題或變更轉給具有更高技術的人員或是組織,以便進行疑難問題的快速跟進解決。
2.3 事件定義優先級
事件的優先級是根據影響度和緊急度共同設定的。影響度是對業務流程影響的一種測量,影響度通常基于服務受到的影響來判斷影響度的高中低。即上述表格中影響度按照服務影響高就是 1,其次依次為 2、3。
事件的緊急度是測量事件、問題或變更持續多少時間會對業務產生重大的影響。比如,如果事件年度才會影響業務,因此緊急度的判定最重要的是時長,所以可能會出現影響度高的事件緊急度可能為低。而優先級正是結合了影響度和緊急度按照上述表 1 二維表格中標記的數字,定義了優先級。
優先級是用于確定事件、問題或變更的相對重要程度的一個判定標準。用它來確定采取 行動所需的時間。服務級別另外有相關專業標準結合判斷。這里需要結合服務級別就是通常 所說的 SLA 來進行優先級的判定。
由于本文重點在于說明事件管理,這里可將服務級別分為高、中、低三類;例如 SLA 中規定:優先級為 1 的事件必須 4 小時內解決。那解決方案就需要控制在 4 小時內。那這個事件的影響度和緊急度根據其標準都是高才對。對業務有重大影響的事件,重大事件將導致重要業務的中斷。一般來說事件優先級為 1 級的事件默認定義為重大事件。若是重大事件就需要按照重大事件流程管理方案來進行此類事件管理。本文的重點也是此類事件的管理辨析。
3 事件管理
3.1 事件管理的主要角色和職責
參見表 2
?
3.2 事件管理流程
一般事件管理流程分為:識別記錄階段、調查診斷階段以及解決關閉階段。這些具體的流程在 ITIL 體系中講解的非常細致。
-
識別記錄階段
?
-
調查診斷階段
?
-
事件解決與關閉
?
3.3 事件管理落地必要點
-
記錄在案:所有已識別的事件都要被記錄,不論事件大小均第一事件被記錄是事件管理的第一要務。解決時效并不會因為記錄而耽擱,反而會因為記錄有據可查;若因情況緊急無法及時記錄時,可進行事后補單,但補單時間不得超過一定時效(比如 12 小時等規定);
-
職責清晰:事件管理的角色一定要清晰,從事件發生到解決涉及的角色必須明確分工且在日常工作中能正常流轉;
-
首問負責:事件的首次響應應對應到真實的團隊,可以為服務臺人員,也可以由類服務臺一線人員,無論是哪類人員均應記錄并初步支持且負責跟蹤事件處理的整個過程直至事件解決;
-
升級保障:事件升級一定要依據情況判斷執行,不可將事件延誤解決時效,以免引起更大事件。
4 事件管理模式
4.1 三種管理模式闡述
本文重點在于講解三種重大事件的管理模式:統管模式、自管模式以及聯動管理模式;
統管模式是指公司設定專門的事件管理團隊,針對所有的事件都進行從頭到尾的管理,即從報障到解決事件都需要事件管理團隊跟進管理,親歷親為;
自管模式是指公司未設定專門的事件管理團隊,由每個業務條線對應的 IT 團隊自行針對此類 IT 服務進行管理。該事件管理的對象是該條業務線對應的 IT, 每類事件都由該條線的 IT 自行管理;
聯動管理模式是指公司設定了專門的事件管理規范和流程,且針對事件和流程中的角色做了明確定義,業務條線的 IT 依據流程提供服務,在遇到難以解決或是流程不暢的情況反饋至該標準化團隊進行更新改進,再次推廣。
?
4.2 事件管理在實際工作中的應用
一般公司都設置了事件管理團隊(或故障管理團隊),該團隊的職責主要在于制定事件管理規范(制度、流程和角色分工設定)以及對事件管理不斷改進和完善。該團隊僅作為監督團隊,對流程負責,不對具體事件的解決負責。即前面內容 3 中事件管理的主要角色和職責的描述和事件管理具體如何做是該團隊要著力的點。
按照上述模式的分類,其中實行統管模式的公司,設置了專門的事件管理團隊。但該團隊針對事件不僅負責事件管理規范制定,還參與具體的事件處置工作。這就被人們稱為:“既當裁判員又當運動員”。
在 IT 服務流程的事件管理中,該流程的裁判員就是該事件管理團隊,那該團隊應承擔的就是管理規范的制定和跟進事件的發展并總結經驗,分享經驗,并非真實參與協調解決事件管理。可在統管模式的事件管理情況中是該團隊針對事件管理的規范做了標準化規定履行了規則制定者(裁判員)的職責外,又在協調解決事件中變成了該流程中的事件處置者(運動員),這樣就違背了公平性和公正性原則。既然能制定規則,就應該置身規則之外,讓建立了業務條線中 IT 隊伍中的事件管理角色的團隊進行故障的處置才是妥當的。
模式二中屬于只有事件管理的角色,沒有綜合指導和標準化團隊來落地規 范。這里不再展開描述。我們重點在分析第三種模式:聯動管理模式。
該模式是規則制定者和規則運用者一起發力的。專門的事件管理團隊針對規范和流程落地做好基礎服務,而事件管理的解決處置有專門的業務條線 IT 人員 根據管理團隊的標準來做事件管理的相關工作。在該具體事件解決過程中遵循管 理規范和制定的準則來展開事件管理工作,不僅能更快的解決事件且能聯動該條線上的資源對該事件進行處置,也能體現主人翁意識。在該事件管理過程中,承擔該事件管理角色的應該是生產線上的運維人員,此類人員是 IT 服務提供的代表,且與用戶粘合度高,對生產系統負責。事件管理作為 ITIL 標準中的一項, 生產運維作為事件管理角色中的一環必不可少。只有發揮這類生產運維人員的事件管理主動性才能把事件管理做好,而非出現問題全由統管模式中的事件規則制定者來對該業務系統發號施令,令該條線的研發和運維都茫然,且對該團隊還需要 再次因該事件場景而去磨合,從而使該條線的運維人員閑置或是失去對生產問題的粘合度。
再者由于在事件管理中,該條線中的生產運維是清晰了解表象的,會在后續的問題管理流程中排查根因中發揮更積極的作用。整體來說,聯動管理模式下,各條線中生產運維和研發伙伴才是真正做事件管理的正確人員,能充分調用資源和職責清晰的做好排障第一時間復生產。
最后由于此類 IT 服務是閉環效果的,從事件管理到問題排查,再到定位問題,轉變更上線該問題是整體一套流程,此流程中 IT 服務提供者是一撥人,而非前后不一致的人員。針對事件復盤可邀請第三方主持,為公正起見(從發生到解決事件標準化團隊并未真正的參與才是作為公正方參與的人選,而事件解決若采用統管模式來由該團隊溝通解決的,那在復盤中該團隊不能作為中立方-試想該團隊都作為運動員上場參與踢球了,為何還能作為裁判來主持局面呢?)
公司選擇的事件管理模式不同就會造成不同的效果,本文作者認為高效的模 式在于聯動管理模式的實施。事件管理是專業工作,專業性體現在流程和規則的制定上,若此項不順,需要盡快規劃完善,而置身其中就沒有必要了。
?
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的IT 部门事件管理模式建立分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 从架构理解价值-我的软件世界观
- 下一篇: 软件研发中的N条原则