摘要:總故障時(shí)間是關(guān)于告警事件數(shù)量與各告警事件時(shí)長(zhǎng)的函數(shù)。一個(gè)月的告警數(shù)據(jù)顯示平均響應(yīng)時(shí)間為分鐘平均解決時(shí)間為分鐘。確定團(tuán)隊(duì)領(lǐng)導(dǎo)人此人將在解決故障期間帶領(lǐng)團(tuán)隊(duì)工作。找到并解決問(wèn)題事件解決時(shí)間大部分花在確定告警問(wèn)題的過(guò)程中。
前不久,我們討論了運(yùn)維不容錯(cuò)過(guò)的 4個(gè)關(guān)鍵指標(biāo),其中平均解決時(shí)間(MTTR)被認(rèn)為是衡量業(yè)務(wù)的最佳標(biāo)準(zhǔn),隨后也分析了「告警等級(jí)」對(duì)MTTR的重要性。
正確看待 MTTRMTTR 為從故障發(fā)生到故障修復(fù)所經(jīng)歷的時(shí)間??偣收蠒r(shí)間是關(guān)于告警事件數(shù)量與各告警事件時(shí)長(zhǎng)的函數(shù)。經(jīng)過(guò)仔細(xì)地探討這兩項(xiàng)因素及其優(yōu)先級(jí),結(jié)合具體情況,總結(jié)以下策略用來(lái)縮短MTTR:
如果想通過(guò)加快工作速度降低 MTTR,理論上是完美的,但是骨感的現(xiàn)實(shí)根本不按我們的劇本走!為了對(duì) MTTR 進(jìn)行持續(xù)的、可衡量的改進(jìn),應(yīng)該對(duì)故障事件進(jìn)行深入的調(diào)查,分析事件的復(fù)雜程度及重要程度,然后從人與系統(tǒng)的協(xié)作上,實(shí)現(xiàn)對(duì)流程進(jìn)行優(yōu)化。
一旦事件發(fā)生,「MTTR」時(shí)鐘便開(kāi)始計(jì)時(shí)。通過(guò)調(diào)整通知流程,或許就能速戰(zhàn)速?zèng)Q。下圖為常見(jiàn)故障處理過(guò)程:
還不夠直觀?數(shù)據(jù)來(lái)說(shuō)話(huà)。 OneAlert 一個(gè)月的告警數(shù)據(jù)顯示:平均響應(yīng)時(shí)間為 2.8 分鐘;平均解決時(shí)間為 27 分鐘。(不要問(wèn)我為什么你們的響應(yīng)時(shí)間要好幾個(gè)小時(shí)?。?/p>
如果你的響應(yīng)時(shí)間較長(zhǎng),建議檢查一下團(tuán)隊(duì)值班響應(yīng)機(jī)制,告警是否可有效傳達(dá)給了正確的人?如果一線(xiàn)排版人員無(wú)響應(yīng),告警能否自動(dòng)升級(jí)?升級(jí)時(shí)間閾值是多少?通過(guò)設(shè)定接近平均響應(yīng)時(shí)間的適當(dāng)期望值和目標(biāo),能確保所有成員盡快對(duì)告警作出響應(yīng)。
告警響應(yīng)時(shí)間過(guò)長(zhǎng),說(shuō)明告警響應(yīng)機(jī)制存在問(wèn)題,故需建立有效的故障解決流程,即需確保以下內(nèi)容:
建立有效溝通協(xié)議——明確每個(gè)人的任務(wù)分工,確立有效溝通方式。以 OneAlert 為例,團(tuán)隊(duì)的溝通方式主要有 QQ 群聊、WeChat 聊天室、釘釘?shù)取?/p>
確定團(tuán)隊(duì)領(lǐng)導(dǎo)人——此人將在解決故障期間帶領(lǐng)團(tuán)隊(duì)工作。需要做好記錄并合理安排工作。
做好記錄——應(yīng)當(dāng)詳細(xì)記錄故障期間發(fā)生的一切。這些記錄在你事后回顧之時(shí)將會(huì)非常有用。OneAlert 團(tuán)隊(duì)領(lǐng)導(dǎo)人還會(huì)定期總結(jié)告警事件。
熟能生巧——確保團(tuán)隊(duì)中每一個(gè)人都不是告警響應(yīng)的新手。
事件解決時(shí)間大部分花在確定告警問(wèn)題的過(guò)程中。所以,如何更快的明確問(wèn)題的關(guān)鍵,是目前各大監(jiān)控工具搶占市場(chǎng)的核心武器。但是未來(lái)可以肯定的是,找到問(wèn)題還不夠,自動(dòng)化處理才是發(fā)展的出路。這部分內(nèi)容將在后期的文章中深入探討。
OneAlert 是應(yīng)用性能管理領(lǐng)軍企業(yè) OneAPM 公司旗下產(chǎn)品,也是國(guó)內(nèi)首個(gè) SaaS 模式的云告警平臺(tái),集成國(guó)內(nèi)外主流監(jiān)控/支撐系統(tǒng),實(shí)現(xiàn)一個(gè)平臺(tái)上集中處理所有 IT 事件,提升 IT 可靠性。想了解更多信息,請(qǐng)?jiān)L問(wèn) OneAlert 官網(wǎng) 。
本文轉(zhuǎn)自 OneAPM 官方博客
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.hztianpu.com/yun/7963.html
摘要:告警當(dāng)一個(gè)問(wèn)題通過(guò)告警系統(tǒng)將消息以短信電話(huà)郵件等方式告知給用戶(hù)時(shí),我們稱(chēng)之為一條告警。圖統(tǒng)一告警系統(tǒng)結(jié)構(gòu)圖告警收斂對(duì)于告警平臺(tái)每天會(huì)產(chǎn)生數(shù)以萬(wàn)計(jì)的告警,這些告警對(duì)于運(yùn)維或開(kāi)發(fā)人員都需要去分析甄別優(yōu)先級(jí)并處理故障。 一、背景一套監(jiān)控系統(tǒng)檢測(cè)和告警是密不可分的,檢測(cè)用來(lái)發(fā)現(xiàn)異常,告警用來(lái)將問(wèn)題信息發(fā)送給相應(yīng)的人。v...
摘要:術(shù)作者三畫(huà),阿里巴巴技術(shù)專(zhuān)家,梓敬鵬升和余樂(lè)對(duì)此文亦有貢獻(xiàn)。接下來(lái),阿里巴巴技術(shù)專(zhuān)家三畫(huà),將分享自己和團(tuán)隊(duì)在畫(huà)好架構(gòu)圖方面的理念和經(jīng)驗(yàn),希望對(duì)你有所幫助。架構(gòu)是結(jié)構(gòu)和愿景。架構(gòu)圖的作用一圖勝千言。 showImg(https://segmentfault.com/img/bVbrpzm?w=1000&h=739);術(shù) 作者 | 三畫(huà),阿里巴巴技術(shù)專(zhuān)家,梓敬、鵬升和余樂(lè)對(duì)此文亦有貢獻(xiàn)。...
摘要:沒(méi)有哪種共識(shí)機(jī)制是完美的,各共識(shí)機(jī)制都有其優(yōu)缺點(diǎn),有些共識(shí)機(jī)制就是為了解決一些特定問(wèn)題而生區(qū)塊鏈中的共識(shí)算法分為驗(yàn)證池,工作證明。網(wǎng)絡(luò)延遲有可能使某些代表沒(méi)能及時(shí)廣播他們的區(qū)塊,而這將導(dǎo)致區(qū)塊鏈分叉。 沒(méi)有哪種共識(shí)機(jī)制是完美的,各共識(shí)機(jī)制都有其優(yōu)缺點(diǎn),有些共識(shí)機(jī)制就是為了解決一些特定問(wèn)題而生 區(qū)塊鏈中的共識(shí)算法分為:POW、POS、DPOS、PBFT、POOL驗(yàn)證池 1、POW:Pro...
摘要:編者按本文作者為,主要介紹告警疲勞的產(chǎn)生原因與對(duì)抗告警疲勞的種方法。告警疲勞不僅會(huì)影響團(tuán)隊(duì)成員的工作情緒,而且會(huì)阻礙軟件交付鏈的成長(zhǎng)。利用工具事件管理工具對(duì)抵抗告警疲勞大有幫助。 【編者按】本文作者為 Chris Riley,主要介紹告警疲勞的產(chǎn)生原因與對(duì)抗告警疲勞的8種方法。文章系國(guó)內(nèi) ITOM 管理平臺(tái) OneAPM 編譯呈現(xiàn)。 各司其職、孤軍作戰(zhàn)非常不利于團(tuán)隊(duì)溝通,一旦發(fā)生重大事...
摘要:行勝于言,理論結(jié)合實(shí)踐才是王道,所以本文我將基于前面的學(xué)習(xí)方法,分享我是如何學(xué)習(xí)微信小程序的。第二個(gè)目標(biāo)則需要學(xué)習(xí)小程序的插件相關(guān)接口調(diào)用,以及蟬知建站系統(tǒng)這邊的微信模塊代碼。 前段時(shí)間和大家一起分享了一篇關(guān)于學(xué)習(xí)方法內(nèi)容《大牛與搬運(yùn)工的差距——學(xué)習(xí)方法的力量》。我們將學(xué)習(xí)過(guò)程分成八步,并借鑒了敏捷開(kāi)發(fā)的迭代思想,以達(dá)到自我迭代學(xué)習(xí)的效果。行勝于言,理論結(jié)合實(shí)踐才是王道,所以本文我將基...
閱讀 1336·2021-09-27 13:35
閱讀 2652·2021-09-06 15:12
閱讀 3452·2019-08-30 15:55
閱讀 2901·2019-08-30 15:43
閱讀 488·2019-08-29 16:42
閱讀 3506·2019-08-29 15:39
閱讀 3128·2019-08-29 12:28
閱讀 1304·2019-08-29 11:11