摘要:使我們的事件結(jié)構(gòu)更加清晰,同時,也能避免數(shù)據(jù)字段對元字段造成污染。一般的,我們在打印輸出日志的時候,只須關(guān)注事件名稱及數(shù)據(jù)字段即可。
歡迎大家前往騰訊云+社區(qū),獲取更多騰訊海量技術(shù)實踐干貨哦~
本文由J2X發(fā)表于云+社區(qū)專欄
我們都有過上機(jī)器查日志的經(jīng)歷,當(dāng)集群數(shù)量增多的時候,這種原始的操作帶來的低效率不僅給我們定位現(xiàn)網(wǎng)問題帶來極大的挑戰(zhàn),同時,我們也無法對我們服務(wù)框架的各項指標(biāo)進(jìn)行有效的量化診斷,更無從談有針對性的優(yōu)化和改進(jìn)。這個時候,構(gòu)建具備信息查找,服務(wù)診斷,數(shù)據(jù)分析等功能的實時日志監(jiān)控系統(tǒng)尤為重要。
ELK (ELK Stack: ElasticSearch, LogStash, Kibana, Beats) 是一套成熟的日志解決方案,其開源及高性能在各大公司廣泛使用。而我們業(yè)務(wù)所使用的服務(wù)框架,如何接入 ELK 系統(tǒng)呢?
我們的業(yè)務(wù)框架背景:
我們將整個框架接入 ELK 簡單歸納為下面幾個步驟:
傳統(tǒng)的,我們在做日志輸出的時候,是直接輸出日志的等級(level)和日志的內(nèi)容字符串(message)。然而我們不僅關(guān)注什么時間,發(fā)生了什么,可能還需要關(guān)注類似的日志發(fā)生了多少次,日志的細(xì)節(jié)與上下文,以及關(guān)聯(lián)的日志。 因此我們不只是簡單地將我們的日志結(jié)構(gòu)化一下為對象,還要提取出日志關(guān)鍵的字段。
我們將每一條日志的發(fā)生都抽像為一個事件。事件包含:
datetime
, timestamp
level
, 例如: ERROR
, INFO
, WARNING
, DEBUG
event
, 例如:client-request
reqLife
, 此字段為事件相對請求開始發(fā)生的時間(間隔)line
,代碼位置; server
, 服務(wù)器的位置reqId
, 此字段貫穿整個請求鏈路上發(fā)生的所有事件reqUid
, 此字段為用戶標(biāo)識,可以跟蹤用戶的訪問或請求鏈路不同類型的事件,需要輸出的細(xì)節(jié)不盡相同,我們將這些細(xì)節(jié)(非元字段)統(tǒng)一放到d
-- data,之中。使我們的事件結(jié)構(gòu)更加清晰,同時,也能避免數(shù)據(jù)字段對元字段造成污染。
e.g. 如 client-init
事件,該事件會在每次服務(wù)器接收到用戶請求時打印,我們將用戶的 ip
, url
等事件獨有的統(tǒng)一歸為數(shù)據(jù)字段放到 d
對象中
舉個完整的例子
{
"datetime":"2018-11-07 21:38:09.271",
"timestamp":1541597889271,
"level":"INFO",
"event":"client-init",
"reqId":"rJtT5we6Q",
"reqLife":5874,
"reqUid": "999793fc03eda86",
"d":{
"url":"/",
"ip":"9.9.9.9",
"httpVersion":"1.1",
"method":"GET",
"userAgent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36",
"headers":"*"
},
"browser":"{"name":"Chrome","version":"70.0.3538.77","major":"70"}",
"engine":"{"version":"537.36","name":"WebKit"}",
"os":"{"name":"Mac OS","version":"10.14.0"}",
"content":"(Empty)",
"line":"middlewares/foo.js:14",
"server":"127.0.0.1"
}
一些字段,如:browser, os, engine為什么在外層 有時候我們希望日志盡量扁平(最大深度為2),以避免 ES 不必要的索引帶來的性能損耗。在實際輸出的時候,我們會將深度大于1的值輸出為字符串。而有時候一些對象字段是我們關(guān)注的,所以我們將這些特殊字段放在外層,以保證輸出深度不大于2的原則。
一般的,我們在打印輸出日志的時候,只須關(guān)注事件名稱
及數(shù)據(jù)字段
即可。其他,我們可以在打印日志的方法中,通過訪問上下文統(tǒng)一獲取,計算,輸出。
前面我們提到了如何定義一個日志事件, 那么,我們?nèi)绾位谝延腥罩痉桨缸錾?,同時,兼容舊代碼的日志調(diào)用方式。
// 改造前
logger.info('client-init => ' + JSON.stringfiy({
url,
ip,
browser,
//...
}));
// 改造后
logger.info({
event: 'client-init',
url,
ip,
browser,
//...
});
logger.debug('checkLogin');
因為 winston 的 日志方法本身就支持 string
或者 object
的傳入方式, 所以對于舊的字符串傳入寫法,formatter 接收到的實際上是{ level: debug, message: checkLogin }
。formatter 是 winston 的日志輸出前調(diào)整日志格式的一道工序, 這一點使我們在日志輸出前有機(jī)會將這類調(diào)用方式輸出的日志,轉(zhuǎn)為一個純輸出事件 -- 我們稱它們?yōu)?code>raw-log事件,而不需要修改調(diào)用方式。
前面提到 winston 輸出日志前,會經(jīng)過我們預(yù)定義的formatter,因此除了兼容邏輯的處理外,我們可以將一些公共邏輯統(tǒng)一放在這里處理。而調(diào)用上,我們只關(guān)注字段本身即可。
如何提取元字段,這里涉及上下文的創(chuàng)建與使用,這里簡單介紹一下 domain 的創(chuàng)建與使用。
//--- middlewares/http-context.js
const domain = require('domain');
const shortid = require('shortid');
module.exports = (req, res, next) => {
const d = domain.create();
d.id = shortid.generate(); // reqId;
d.req = req;
//...
res.on('finish', () => process.nextTick(() => {
d.id = null;
d.req = null;
d.exit();
});
d.run(() => next());
}
//--- app.js
app.use(require('./middlewares/http-context.js'));
//--- formatter.js
if (process.domain) {
reqId = process.domain.id;
}
這樣,我們就可以將 reqId
輸出到一次請求中所有的事件, 從而達(dá)到關(guān)聯(lián)事件的目的。
現(xiàn)在,我們知道怎么輸出一個事件了,那么下一步,我們該考慮兩個問題:
換句話說,整個請求鏈路中,哪些節(jié)點是我們關(guān)注的,出現(xiàn)問題,可以通過哪個節(jié)點的信息快速定位到問題?除此之外,我們還可以通過哪些節(jié)點的數(shù)據(jù)做統(tǒng)計分析?
結(jié)合一般常見的請求鏈路(用戶請求,服務(wù)側(cè)接收請求,服務(wù)請求下游服務(wù)器/數(shù)據(jù)庫(*多次),數(shù)據(jù)聚合渲染,服務(wù)響應(yīng)),如下方的流程圖
流程圖
那么,我們可以這樣定義我們的事件:
client-init
: 打印于框架接收到請求(未解析), 包括:請求地址,請求頭,Http 版本和方法,用戶 IP 和 瀏覽器client-request
: 打印于框架接收到請求(已解析),包括:請求地址,請求頭,Cookie, 請求包體client-response
: 打印于框架返回請求,包括:請求地址,響應(yīng)碼,響應(yīng)頭,響應(yīng)包體http-start
: 打印于請求下游起始:請求地址,請求包體,模塊別名(方便基于名字聚合而且域名)http-success
: 打印于請求返回 200:請求地址,請求包體,響應(yīng)包體(code & msg & data),耗時http-error
: 打印于請求返回非 200,亦即連接服務(wù)器失?。赫埱蟮刂?,請求包體,響應(yīng)包體(code & message & stack),耗時。http-timeout
: 打印于請求連接超時:請求地址,請求包體,響應(yīng)包體(code & msg & stack),耗時。字段這么多,該怎么選擇? 一言以蔽之,事件輸出的字段原則就是:輸出你關(guān)注的,方便檢索的,方便后期聚合的字段。
{ action: getUserInfo, payload: {} }
輸出: { code: 0, msg: , data: {}}
我們可以在事件輸出 action,code 等,以便后期通過 action 檢索某模塊具體某個接口的各項指標(biāo)和聚合。ignore_above
中指定的字節(jié)數(shù)(默認(rèn)4096個字節(jié))。否則同樣可能會產(chǎn)生無法被檢索的情況這里引入 ES 的兩個概念,映射(Mapping)與模版(Template)。
首先,ES 基本的存儲類型大概枚舉下,有以下幾種
一般的,我們不需要顯示指定每個事件字段的在ES對應(yīng)的存儲類型,ES 會自動根據(jù)字段第一次出現(xiàn)的document中的值來決定這個字段在這個索引中的存儲類型。但有時候,我們需要顯示指定某些字段的存儲類型,這個時候我們需要定義這個索引的 Mapping, 來告訴 ES 這此字段如何存儲以及如何索引。
e.g.
還記得事件元字段中有一個字段為 timestamp ?實際上,我們輸出的時候,timestamp 的值是一個數(shù)字,它表示跟距離 1970/01/01 00:00:00 的毫秒數(shù),而我們期望它在ES的存儲類型為 date 類型方便后期的檢索和可視化, 那么我們創(chuàng)建索引的時候,指定我們的Mapping。
PUT my_logs
{
"mappings": {
"_doc": {
"properties": {
"title": {
"type": "date",
"format": "epoch_millis"
},
}
}
}
}
但一般的,我們可能會按日期自動生成我們的日志索引,假定我們的索引名稱格式為 my_logs_yyyyMMdd (e.g. my_logs_20181030)。那么我們需要定義一個模板(Template),這個模板會在(匹配的)索引創(chuàng)建時自動應(yīng)用預(yù)設(shè)好的 Mapping。
PUT _template/my_logs_template
{
"index_patterns": "my_logs*",
"mappings": {
"_doc": {
"properties": {
"title": {
"type": "date",
"format": "epoch_millis"
},
}
}
}
}
提示:將所有日期產(chǎn)生的日志都存在一張索引中,不僅帶來不必要的性能開銷,也不利于定期刪除比較久遠(yuǎn)的日志。
至此,日志改造及接入的準(zhǔn)備工作都已經(jīng)完成了,我們只須在機(jī)器上安裝 FileBeat -- 一個輕量級的文件日志Agent, 它負(fù)責(zé)將日志文件中的日志傳輸?shù)?ELK。接下來,我們便可使用 Kibana 快速的檢索我們的日志。
相關(guān)閱讀
【每日課程推薦】機(jī)器學(xué)習(xí)實戰(zhàn)!快速入門在線廣告業(yè)務(wù)及CTR相應(yīng)知識
此文已由作者授權(quán)騰訊云+社區(qū)發(fā)布,更多原文請點擊
搜索關(guān)注公眾號「云加社區(qū)」,第一時間獲取技術(shù)干貨,關(guān)注后回復(fù)1024 送你一份技術(shù)課程大禮包!
海量技術(shù)實踐經(jīng)驗,盡在云加社區(qū)!
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://m.hztianpu.com/yun/1522.html
摘要:使我們的事件結(jié)構(gòu)更加清晰,同時,也能避免數(shù)據(jù)字段對元字段造成污染。一般的,我們在打印輸出日志的時候,只須關(guān)注事件名稱及數(shù)據(jù)字段即可。 我們都有過上機(jī)器查日志的經(jīng)歷,當(dāng)集群數(shù)量增多的時候,這種原始的操作帶來的低效率不僅給我們定位現(xiàn)網(wǎng)問題帶來極大的挑戰(zhàn),同時,我們也無法對我們服務(wù)框架的各項指標(biāo)進(jìn)行有效的量化診斷,更無從談有針對性的優(yōu)化和改進(jìn)。這個時候,構(gòu)建具備信息查找,服務(wù)診斷,數(shù)據(jù)分析等...
摘要:使我們的事件結(jié)構(gòu)更加清晰,同時,也能避免數(shù)據(jù)字段對元字段造成污染。一般的,我們在打印輸出日志的時候,只須關(guān)注事件名稱及數(shù)據(jù)字段即可。 本文由云+社區(qū)發(fā)表作者:J2X 我們都有過上機(jī)器查日志的經(jīng)歷,當(dāng)集群數(shù)量增多的時候,這種原始的操作帶來的低效率不僅給我們定位現(xiàn)網(wǎng)問題帶來極大的挑戰(zhàn),同時,我們也無法對我們服務(wù)框架的各項指標(biāo)進(jìn)行有效的量化診斷,更無從談有針對性的優(yōu)化和改進(jìn)。這個時候,構(gòu)建...
摘要:日志規(guī)范一般前端開發(fā)同學(xué),對日志其實不太敏感,畢竟前端大多數(shù)情況下,不太關(guān)心日志。本文主要梳理了目前我們團(tuán)隊在開發(fā)中日志方面存在的問題,以及通過統(tǒng)一日志規(guī)范,希望達(dá)到什么樣的效果。日志格式字段日志格式統(tǒng)一采用,便于解析處理。nodejs 日志規(guī)范 一般前端開發(fā)同學(xué),對日志其實不太敏感,畢竟前端大多數(shù)情況下,不太關(guān)心日志。即使有,也可能調(diào)用一些第三方的統(tǒng)計,比如百度統(tǒng)計或者別的等。在 Node...
摘要:基于年底或年初沒有推廣的現(xiàn)狀,唯品會部門目前已經(jīng)做了兩年的時間。唯品會現(xiàn)狀唯品會目前線上有一千多個域,每個域之間相互的依賴比較復(fù)雜,每次的部署發(fā)布困難。這是唯品會的架構(gòu),主要包含持續(xù)集成和持續(xù)部署。 數(shù)人云上海&深圳兩地容器之Mesos/K8S/Swarm三國演義的嘉賓精彩實錄第三更來啦。唯品會是數(shù)人云Meetup的老朋友,去年曾做過RPC服務(wù)框架和Mesos容器化的分享。本次分享中,...
閱讀 847·2023-04-25 19:43
閱讀 4115·2021-11-30 14:52
閱讀 3930·2021-11-30 14:52
閱讀 4027·2021-11-29 11:00
閱讀 3921·2021-11-29 11:00
閱讀 4039·2021-11-29 11:00
閱讀 3769·2021-11-29 11:00
閱讀 6607·2021-11-29 11:00