文章前言
技術(shù)背景
問題描述
發(fā)送告警信息的定時任務(wù)無法執(zhí)行,報錯輸出文件目錄不存在。
發(fā)送告警信息的定時任務(wù)(send_JF.sh)無法執(zhí)行,報錯系統(tǒng)JF不存在。
檢查MGR進(jìn)程參數(shù):不論MGR進(jìn)程是否為手動創(chuàng)建,都要仔細(xì)檢查其參數(shù)配置。推廣到更一般的情況,就是在進(jìn)行操作時,對所有與該操作有關(guān)的信息進(jìn)行核查。
告警腳本完整測試:部署告警腳本的時候,需要對所有涉及的腳本進(jìn)行測試。推廣到更一般的情況,就是在進(jìn)行操作時,對所有可能觸發(fā)該操作的情況進(jìn)行校驗。
引發(fā)思考
更多拓展
總 結(jié)
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://m.hztianpu.com/yun/129671.html
摘要:隨著人工智能時代的到來,攜程生產(chǎn)環(huán)境運(yùn)維進(jìn)入了新的運(yùn)維時代。本文選取了幾種典型的運(yùn)維場景對在攜程的踐行展開了介紹,首先讓我們從概念認(rèn)識下。針對應(yīng)用異常指標(biāo)檢測這種場景,抽取一定的樣本統(tǒng)計,在基于專家經(jīng)驗標(biāo)注下的準(zhǔn)確率可達(dá)到以上,召回率接近。 作者簡介徐新龍,攜程技術(shù)保障中心應(yīng)用管理團(tuán)隊高級工程師,負(fù)責(zé)多個AIOps項目的設(shè)計與研發(fā)。信號處理專業(yè)碩士畢業(yè),對人工智能、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)及數(shù)學(xué)有...
摘要:相當(dāng)于分布式數(shù)據(jù)庫的大腦,一方面負(fù)責(zé)收集和維護(hù)數(shù)據(jù)在各個節(jié)點(diǎn)的分布情況,另一方面承擔(dān)調(diào)度器的角色,根據(jù)數(shù)據(jù)分布狀況以及各個存儲節(jié)點(diǎn)的負(fù)載來采取合適的調(diào)度策略,維持整個系統(tǒng)的平衡與穩(wěn)定。原文鏈接雷神自動化運(yùn)維平臺 作者:瞿鍇,同程藝龍資深 DBA 背景介紹 隨著互聯(lián)網(wǎng)的飛速發(fā)展,業(yè)務(wù)量可能在短短的時間內(nèi)爆發(fā)式地增長,對應(yīng)的數(shù)據(jù)量可能快速地從幾百 GB 漲到幾百個 TB,傳統(tǒng)的單機(jī)數(shù)據(jù)庫提...
摘要:為了掌握你的告警事件響應(yīng)時間,在你已經(jīng)開始處理告警時,強(qiáng)烈建議及時響應(yīng)認(rèn)領(lǐng),例如通過移動端微信頁面移動等方式及時認(rèn)領(lǐng)。這一點(diǎn)國外做的很棒,在短信電話移動都可以很容易確認(rèn)認(rèn)領(lǐng)在微信端可以認(rèn)領(lǐng)和關(guān)閉。 這是《運(yùn)維不容錯過的4個關(guān)鍵指標(biāo)》的姐妹篇,上篇文章介紹了優(yōu)秀運(yùn)維團(tuán)隊需要關(guān)注的4個關(guān)鍵指標(biāo),我們分享了平均恢復(fù)時間 MTTR、平均響應(yīng)時間 MTTA 等概念。這篇是介紹一些實(shí)踐方法,更好的...
摘要:告警當(dāng)一個問題通過告警系統(tǒng)將消息以短信電話郵件等方式告知給用戶時,我們稱之為一條告警。圖統(tǒng)一告警系統(tǒng)結(jié)構(gòu)圖告警收斂對于告警平臺每天會產(chǎn)生數(shù)以萬計的告警,這些告警對于運(yùn)維或開發(fā)人員都需要去分析甄別優(yōu)先級并處理故障。 一、背景一套監(jiān)控系統(tǒng)檢測和告警是密不可分的,檢測用來發(fā)現(xiàn)異常,告警用來將問題信息發(fā)送給相應(yīng)的人。v...
閱讀 1493·2023-01-11 13:20
閱讀 1851·2023-01-11 13:20
閱讀 1290·2023-01-11 13:20
閱讀 2041·2023-01-11 13:20
閱讀 4243·2023-01-11 13:20
閱讀 2948·2023-01-11 13:20
閱讀 1581·2023-01-11 13:20
閱讀 3853·2023-01-11 13:20