摘要:為了掌握你的告警事件響應(yīng)時間,在你已經(jīng)開始處理告警時,強烈建議及時響應(yīng)認(rèn)領(lǐng),例如通過移動端微信頁面移動等方式及時認(rèn)領(lǐng)。這一點國外做的很棒,在短信電話移動都可以很容易確認(rèn)認(rèn)領(lǐng)在微信端可以認(rèn)領(lǐng)和關(guān)閉。
這是《運維不容錯過的4個關(guān)鍵指標(biāo)》的姐妹篇,上篇文章介紹了優(yōu)秀運維團(tuán)隊需要關(guān)注的4個關(guān)鍵指標(biāo),我們分享了平均恢復(fù)時間 MTTR、平均響應(yīng)時間 MTTA 等概念。這篇是介紹一些實踐方法,更好的使用工具進(jìn)行優(yōu)化以上指標(biāo)。
以 MTTA 為指導(dǎo)原則MTTA 是衡量響應(yīng)一個告警事件的關(guān)鍵性指標(biāo)。為了掌握你的告警事件響應(yīng)時間,在你已經(jīng)開始處理告警時,強烈建議及時響應(yīng)(認(rèn)領(lǐng)),例如通過移動端、微信、頁面、移動 APP 等方式及時認(rèn)領(lǐng)。特別是如果有多人運維、并且設(shè)置了升級處理的策略,該實踐會非常有用,你可以知道現(xiàn)在是誰在處理,處理進(jìn)展怎樣,你就不用擔(dān)心告警沒通知到位或者是沒有處理了。
大多數(shù)優(yōu)秀的運維團(tuán)隊,往往會將 MTTA 作為最關(guān)鍵的指標(biāo)之一,因為這是可控和可操作的。有故障時,我們很難控制最終的恢復(fù)時間,畢竟涉及問題較多;但是至少可以保證響應(yīng)及時率。優(yōu)秀的運維告警平臺很容易就能夠能夠跟蹤整個團(tuán)隊的 MTTA ,包括現(xiàn)狀、歷史趨勢,團(tuán)隊是否可以達(dá)到響應(yīng)標(biāo)準(zhǔn)。
可能有同學(xué)會質(zhì)疑,因為大家經(jīng)常是第一時間就開始處理告警,往往忽略掉響應(yīng)(認(rèn)領(lǐng)),平時如果多個人協(xié)作同學(xué)坐一起,會吼一句「放著我來!」就能搞定,需要這么復(fù)雜么。
沒有數(shù)據(jù)記錄,就沒有優(yōu)化基礎(chǔ)。比如如果人員不集中的話,或者是事情多了,就容易溝通不暢或遺漏,使用工具能夠避免該問題。
很多告警工具需要同學(xué)們在 PC 上登錄到告警系統(tǒng)去認(rèn)領(lǐng)一下(甚至撥 VPN 訪問內(nèi)網(wǎng)),確實很麻煩。這一點國外 PagerDuty 做的很棒,在短信、電話、移動 APP 都可以很容易確認(rèn)/認(rèn)領(lǐng); OneAlert 在微信端可以認(rèn)領(lǐng)和關(guān)閉。移動化和快捷是實踐 MTTA 的重要保障。
解決問題需要記錄我們強烈建議及時更新記錄告警的解決時間,當(dāng)解決告警或者是告警自動恢復(fù)后,及時在告警系統(tǒng)上記錄/更新告警的狀態(tài)為關(guān)閉或者是恢復(fù)。例如使用 PagerDuty 、 VictorOps 、或者國內(nèi) OneAlert 時,可以人工記錄告警關(guān)閉。并且如果使用 API 或者其他工具集成方式,會自動化同步監(jiān)控工具的告警狀態(tài)。
謹(jǐn)慎使用超時時間不少監(jiān)控工具都具備自動升級規(guī)則,一般會支持告警自動關(guān)閉,即如果長時間沒有關(guān)閉/恢復(fù)告警,告警系統(tǒng)會自動關(guān)閉掉,該參數(shù)會影響到最終的 MTTR 。
如果你沒有形成解決故障后,及時更新告警平臺上告警狀態(tài)的習(xí)慣,那么超時自動關(guān)閉時間能夠避免該問題。PagerDuty 的服務(wù)和 OneAlert 的應(yīng)用都支持超時自動關(guān)閉時間設(shè)置,一般是30分鐘-4小時。如果使用超時自動關(guān)閉,那么可能會在數(shù)據(jù)統(tǒng)計周報中影響到最終 MTTR,統(tǒng)計數(shù)據(jù)會比實際更長,這一點不是很利于團(tuán)隊執(zhí)行效率優(yōu)化,需要謹(jǐn)慎使用。
抖動告警(flapping alert)抖動告警(flapping alert)是指告警觸發(fā)后,即刻恢復(fù),之后又觸發(fā)并恢復(fù),反復(fù)多次。抖動告警的原因大多是監(jiān)控指標(biāo)在閾值范圍附近頻繁抖動。抖動告警會引發(fā) MTTA 和 MTTR 數(shù)據(jù)異常,通常表現(xiàn)為大量的告警數(shù)量,但是很小的 MTTA 和 MTTR 值,甚至沒有 MTTA。因為告警還沒有來得及響應(yīng)(認(rèn)領(lǐng))就已經(jīng)被自動關(guān)閉了。
還有一點,非常重要的是抖動告警往往會引發(fā)告警疲勞,即大量無需處理的告警出現(xiàn),會增加運維人員負(fù)擔(dān),往往會忽略掉重要告警。所以非常有必要通過周報分析的方式識別出哪些抖動告警,大部分情況下可以通過優(yōu)化閾值方式優(yōu)化。如可參考 Nagios flapping 設(shè)置。
小結(jié)上一篇《運維不容錯過的4個關(guān)鍵指標(biāo)》和這篇文章,分享了國外PagerDuty、VictorOps和國內(nèi) OneAlert 的一些核心設(shè)計理念,希望對大家有些幫助。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://m.hztianpu.com/yun/7942.html
摘要:數(shù)據(jù)中心操作系統(tǒng)以和等新一代創(chuàng)業(yè)公司為代表,開始提出數(shù)據(jù)中心操作系統(tǒng)的概念。數(shù)據(jù)中心操作系統(tǒng)與開發(fā)方有一個非常清晰和低成本的接入接口,完全省去了運維這個角色寫膠水腳本的必要性,從而徹底顛覆這個崗位。 崗位價值有: 權(quán)限縮小 提供操作安全的保險服務(wù) 提供操作的可擴展性 提供業(yè)務(wù)和資源能見度 屏蔽資源的部署細(xì)節(jié) 靜態(tài)資源調(diào)平 動態(tài)資源調(diào)平 故障處理和善后 權(quán)限縮小 通過配置文件修改...
摘要:靈活查詢,聚合分組并存除開單純的聚合和分組,還支持聚合和分組的復(fù)合查詢。所以,與會聚合為一條曲線,而和的關(guān)系則是分組的關(guān)系。當(dāng)然,的功能在未來,還遠(yuǎn)遠(yuǎn)不止這些,高效運維的時代才剛剛開啟。 運維 2.0 時代 運維 2.0 是指,從技術(shù)運維升級為服務(wù)運維,向公司提供可依賴的專業(yè)服務(wù)。運維 2.0 強調(diào)服務(wù)交付能力,而不是技術(shù)能力,需求可依賴、懂業(yè)務(wù)、服務(wù)化的專業(yè)運維。 為了了解運維 2....
摘要:還有那個極具極客范兒的監(jiān)控閉路電視的硬盤空間也是用儀表盤展示數(shù)據(jù)的,具體代碼可以看上項目。對了還有業(yè)務(wù)層面的實現(xiàn)業(yè)務(wù)響應(yīng)速度監(jiān)控,監(jiān)控的響應(yīng)時間,什么監(jiān)控數(shù)據(jù),應(yīng)用數(shù)據(jù),儀表盤統(tǒng)統(tǒng)搞的定。 Cloud Insight 第13次新品發(fā)布會現(xiàn)在開始,首先非常感謝大家前來看我們的新功能發(fā)布會,下面我先給大家介紹一下新功能,之后有什么問題大家盡管問?。 新功能 Cloud Insight 發(fā)布...
摘要:,是開發(fā)和運維的組合,代表一種文化運動或?qū)嵺`,旨在促進(jìn)軟件交付和基礎(chǔ)設(shè)施變更軟件開發(fā)人員和運維技術(shù)人員之間的合作和溝通。預(yù)計年,將成為一項優(yōu)勢策略得到全面的普及與實踐。而且隨著新軟件和工具以及技術(shù)的使用,這一勢頭有望增長。 DevOps,是開發(fā)(Development)和運維(Operations)的組合,代表一種文化、運動或?qū)嵺`,旨在促進(jìn)軟件交付和基礎(chǔ)設(shè)施變更軟件開發(fā)人員(Dev)和...
摘要:運維流程管理工具發(fā)布變更流程管理工具做為系統(tǒng)接口與其他角色的工作銜接。流程管理工具并不負(fù)責(zé)具體的業(yè)務(wù)操作的執(zhí)行,只是作為單據(jù)系統(tǒng)跟蹤流程和確保閉環(huán)。告警和突發(fā)管理工具體現(xiàn)業(yè)務(wù)受損的告警自動建單管理。運維事件數(shù)據(jù)庫記錄所有的告警。 運維流程管理工具 發(fā)布變更流程管理工具:做為系統(tǒng)接口與其他角色的工作銜接。并提供審批環(huán)節(jié)控制發(fā)布變更的風(fēng)險。流程管理工具并不負(fù)責(zé)具體的業(yè)務(wù)操作的執(zhí)行,只是作...
閱讀 3064·2021-11-08 13:20
閱讀 1115·2021-09-22 15:20
閱讀 728·2019-08-30 15:53
閱讀 2036·2019-08-30 15:43
閱讀 1332·2019-08-29 17:21
閱讀 589·2019-08-29 12:15
閱讀 2440·2019-08-28 17:51
閱讀 3199·2019-08-26 13:26