摘要:接下來我們以余額寶為例,重點剖析天弘基金在日志數(shù)據(jù)分析領(lǐng)域是如何突破的此前,天弘基金一直使用開源的日志方案,研發(fā)和運維人員通過對日志數(shù)據(jù)進行處理,使用日志文件進行查詢檢索。
“雙十一”剛剛結(jié)束,其實最緊張的不是商鋪理貨,也不是網(wǎng)友緊盯大促商品準(zhǔn)備秒殺,而是網(wǎng)購幕后的運維人員,他們最擔(dān)心:什么網(wǎng)絡(luò)中斷、應(yīng)用卡頓、響應(yīng)速度慢,服務(wù)器宕機……
雙十一作為電商 IT 部門的頭等大事,大促前,運維人員就需要早早地做好多套預(yù)備方案,并時刻緊繃著神經(jīng),經(jīng)歷著上百次模擬演練。他們在后端有多少不眠不休的夜晚,不得而知。
看似簡單的雙十一背后牽扯到是包括支付、架構(gòu)、數(shù)據(jù)庫、網(wǎng)絡(luò)、運維、電力、客服、物流等整個商業(yè)配套基礎(chǔ)設(shè)施的協(xié)同和考驗。
雙十一大促這些年,運維領(lǐng)域邁過了哪些坑?智能化運維初露端倪的今天,企業(yè)又該如何布局?帶著這些疑問,Info 采訪了袋鼠云首席運維專家林杰,他此前支持過淘寶網(wǎng),天貓,共享業(yè)務(wù),無線事業(yè)手機淘寶,聚劃算等 BU 業(yè)務(wù)運維,對運維領(lǐng)域有著自己獨到的見解。
雙十一大促這些年 ?運維邁過的坑 ?
林杰回憶:天貓雙十一大促最早開始于 2009 年,那時候還是淘寶商城,一天的 GMV 只有幾千萬,而且還沒有零點全民瘋搶的概念。在大促前工程師們基本上會根據(jù)各自的經(jīng)驗判斷,比如服務(wù)器的當(dāng)前負(fù)載、應(yīng)用的當(dāng)前 RT 和 QPS,判斷每臺服務(wù)器較大能支撐多少能力等,然后幾個人討論后就決策拍板,某某核心應(yīng)用各自要加多少臺服務(wù)器,到底要加多少服務(wù)器,實際上大家的心里沒底,實在不放心臨時再多申請擴容??傊@個階段業(yè)務(wù)量也小,也能應(yīng)付過去。
后來幾年隨著天貓品牌的提升,雙十一大促逐年爆發(fā),原來的運維方式已經(jīng)無法適用。業(yè)務(wù)發(fā)展迅速,后端的應(yīng)用數(shù)量也大大增加,各個應(yīng)用系統(tǒng)之間的調(diào)用鏈路錯綜復(fù)雜。大促前到底要準(zhǔn)備擴容多少資源?不能拍腦袋熱,因為你申請資源太多會可能被拒絕,申請少了你要承擔(dān)更大的風(fēng)險。這時候我們是用線上壓測的方式來解決,比如可以直接在生產(chǎn)環(huán)境抽取 1 臺服務(wù)器,通過模擬回放或者直接引入多倍流量做壓測,根據(jù)壓測結(jié)果計算出單臺服務(wù)器的較大可承載能力,然后用數(shù)字來說話,去申請擴容。還有就是即使容量規(guī)劃做到位了,但在零點峰值的時候還是可能會超出預(yù)期,系統(tǒng)還是會擠爆。所以又引入了限流和降級,限流就是對各個應(yīng)用設(shè)置一個較大閾值,超過閾值就立刻拒絕新的請求,這樣的好處就是保護應(yīng)用,避免雪崩。還有就是降級,由于應(yīng)用太多,在大促的期間,可以關(guān)閉部分非核心功能,保證交易主流程的能力較大化。那個階段的壓測也不是完全較精確的,主要問題是壓測的局限性,只是對某個應(yīng)用做多帶帶壓測,但是應(yīng)用之間是有依賴有關(guān)聯(lián)的,特別是一些共享服務(wù)中心,基本上被所有應(yīng)用都依賴調(diào)用,那怎么辦呢?后來幾年時間又研發(fā)出新的壓測工具,全鏈路壓測。這個對于容量規(guī)劃來說,是全新的思路,直接在生產(chǎn)環(huán)境上通過模擬復(fù)制產(chǎn)生大批的流量,每個環(huán)節(jié)都會被壓測到,并有相應(yīng)的監(jiān)控系統(tǒng)配套,來找出瓶頸點在哪里,并迅速優(yōu)化。而且這個過程被自動化完成。
可見,自動化運維是大勢所趨。
零點瘋搶背后的運籌帷幄 ?
現(xiàn)在的電商雙十一大促活動仍舊延續(xù)零點瘋搶模式,對于應(yīng)用系統(tǒng)保障來說,能否順利扛過前 15 分鐘,甚至是前幾分鐘,成為最核心的保障任務(wù)。林杰給出了以下幾點建議:
a. 容量規(guī)劃。 盡可能在生產(chǎn)環(huán)境做壓測,只有經(jīng)歷過壓測,心里才會有底。
b. 關(guān)鍵應(yīng)用要支持限流。 零點全民瘋狂的流量很可能會超出預(yù)期,只有設(shè)置好限流才能保護好自身應(yīng)用,否則出現(xiàn)雪崩式連鎖反應(yīng)。
c. 對非核心功能做降級。 每次雙十一會投入大量的資源,基本會往核心交易類應(yīng)用傾斜,那么非核心功能的降級一定程度上是可接受的。
d. 應(yīng)急預(yù)案。 對可能發(fā)生的異常狀況提前準(zhǔn)備。
雙十一大促是最典型的彈性場景 ?
彈性是云計算的較大優(yōu)勢,而大促是最典型的彈性場景。
隨著云計算特別是公有云的普及,現(xiàn)在的運維人員基本上無需關(guān)注機房、網(wǎng)絡(luò)、操作系統(tǒng)等底層設(shè)施。在不斷地演練后,如今的電商平臺早已采用彈性可擴展的云計算平臺,配合分布式數(shù)據(jù),高效的 CDN 分發(fā)來實現(xiàn)負(fù)載均衡,避免在雙十一凌晨高并發(fā)狀態(tài)下崩盤。運維人員將更多精力轉(zhuǎn)移到快速上線,快速迭代,去支持業(yè)務(wù)發(fā)展。
大促活動的流量跟日常完全不在一個量級,完全可以利用云資源的按需使用,來達到擴容的需求,而且在成本上是巨大的節(jié)省。除了擴容以外,當(dāng)然還需要準(zhǔn)備應(yīng)急預(yù)案。整理出當(dāng)天可能出現(xiàn)的異常情況,提前預(yù)演。
去年天貓雙十一開場僅僅十分鐘,世界支付紀(jì)錄被再次刷新。支付寶公布的數(shù)據(jù)顯示,在零點 9 分 39 秒,支付寶的支付峰值達到 12 萬筆/秒,是前年的 1.4 倍,刷新了去年創(chuàng)下的峰值紀(jì)錄。在支付方式的選擇上,花唄和余額寶成為非常受網(wǎng)友歡迎的支付方式,筆數(shù)占比分別高達 29% 和 18% 。
經(jīng)得起巨額交易,玩得起光速秒殺,技術(shù)系統(tǒng)抗得住,收益率流動性各種穩(wěn)妥……只有經(jīng)得起雙十一的終極考驗的才算是真正的神器!
天弘基金基于日志數(shù)據(jù)分析的高效運維 ?
對于天弘基金來說,如何確保余額寶在雙十一的流動性和收益率平穩(wěn)是一大挑戰(zhàn)。
線上系統(tǒng)最常規(guī)的問題定位方式,就是日志分析了。接下來我們以余額寶為例,重點剖析天弘基金在日志數(shù)據(jù)分析領(lǐng)域是如何突破的?
此前,天弘基金一直使用開源的 ELK 日志方案,研發(fā)和運維人員通過 ELK 對日志數(shù)據(jù)進行處理,使用日志文件進行查詢檢索。隨著應(yīng)用場景的不斷深入,以及內(nèi)部人員需求的不斷增加,天弘基金希望通過日志分析來解決運維和應(yīng)用相關(guān)的新問題,在這方面,選擇和袋鼠云合作。具體包括以下幾個方面:
一、數(shù)據(jù)脫敏 ?
天弘基金存有大量的個人用戶信息,日志文件中都會保留個人和銀行卡四要素信息,這些數(shù)據(jù)都屬于個人隱私,原有 ELK 方案無法屏蔽這些敏感數(shù)據(jù),不能從根本上解決問題。以往開發(fā)人員需要查看日志的時候,旁邊都必須跟著一個運維人員,在運維人員的監(jiān)督下才可以查看日志。僅僅在查日志這樣一個簡單過程中,都需要多浪費一個運維人員的時間,不僅協(xié)同工作效率低,且不能解放運維人員的監(jiān)督工作。
袋鼠云日志數(shù)據(jù)脫敏功能,可以通過簡單的設(shè)置解決這一問題。安全管理員選擇日志文件中需要脫敏的字段,以表達式匹配的方式進行轉(zhuǎn)換,系統(tǒng)將自動過濾轉(zhuǎn)換成脫敏后的信息,同時,結(jié)合權(quán)限控制功能,對無權(quán)查看日志原文的用戶自動屏蔽敏感數(shù)據(jù)信息。
金融客戶對日志中的敏感數(shù)據(jù)進行脫敏是常見需求。諸如銀行卡、身份證、手機號等等,標(biāo)識用戶身份的信息脫敏。袋鼠云日志除了支持這些常規(guī)數(shù)據(jù)的脫敏,還支持自定義脫敏規(guī)則。通過自定義脫敏規(guī)則,可以增量添加用戶所需的任意脫敏規(guī)則。
二、采集資源管控 ?
天弘基金所有線上業(yè)務(wù)的服務(wù)器資源,都必須保證 24 小時不間斷對外提供服務(wù),并且業(yè)務(wù)和應(yīng)用程序都要保證高可用。任何外部程序或第三方應(yīng)用都不能影響生產(chǎn)環(huán)境的穩(wěn)定運行,所有部署在服務(wù)器上的程序,都不能對應(yīng)用系統(tǒng)具有侵入性。同時,部署在服務(wù)器上的采集程序也要經(jīng)過嚴(yán)格的壓力和性能測試,確保采集程序不會對業(yè)務(wù)系統(tǒng)產(chǎn)生任何影響。
袋鼠云日志在產(chǎn)品設(shè)計之初就開始考慮如何較大程度降低日志采集客戶端對服務(wù)器的影響。云日志通過對 Agent 采集程序的資源管控,從資源限制到異常終止提供安全保障。
第一層:資源限制
袋鼠云日志將 Agent 的運行占用資源進行嚴(yán)格限制,例如:CPU 占用率不能超過 5%,內(nèi)存占用率不能超過 100M,帶寬占用不能超過 500KB/s,該閾值可以通過頁面自由定制。一旦資源限制開啟,Agent 將會在該閾值允許范圍內(nèi)運行。如果有日志量暴增的情況發(fā)生時,Agent 也會自動進行資源抑制。
第二層:Agent 自刎
當(dāng)發(fā)生極為特殊的狀況,導(dǎo)致資源限制失效,Agent 占用資源超出設(shè)定閾值,袋鼠云日志的 Agent 會通過自刎機制將進程終止,充分保障業(yè)務(wù)系統(tǒng)的安全性。在系統(tǒng)穩(wěn)定后,重啟并恢復(fù) Agent,可將之前遺漏的日志進行重新采集,保證日志數(shù)據(jù)不丟失。
三、調(diào)用鏈路分析 ?
天弘基金的業(yè)務(wù)系統(tǒng)采用分布式架構(gòu)設(shè)計,并引入螞蟻金融云的 Sofa 框架進行開發(fā),Sofa 框架可以通過配置來實現(xiàn)日志文件的生成,每個系統(tǒng)都生成大量的調(diào)用鏈路日志。這些日志原本沒有利用價值,但通過日志分析可以發(fā)現(xiàn),基于日志的分布式調(diào)用跟蹤系統(tǒng),其關(guān)鍵核心在于調(diào)用鏈,為每個請求生成全局的 ID(Traceld),通過它將不同系統(tǒng)的“孤立的”調(diào)用信息關(guān)聯(lián)在一起,還原出更多有價值的信息。
如何利用這些日志來幫助用戶進行分析是云日志要解決的問題,經(jīng)過一段時間對 Sofa 日志文件的研究,袋鼠云日志成功將其中的調(diào)用鏈路進行解析,以可視化的方式為用戶呈現(xiàn)各中心之間的調(diào)用關(guān)系,以及接口的調(diào)用成功失敗次數(shù)、調(diào)用耗時等關(guān)鍵信息。
調(diào)用鏈路具體的應(yīng)用場景包括以下幾個方面:
A. 定位異常統(tǒng)計耗時
通過調(diào)用鏈路在業(yè)務(wù)異常日志的錯誤信息中找到 TraceID,在系統(tǒng)中可以看到調(diào)用鏈中具體的情況,在調(diào)用鏈上更加直觀地定位到問題,層層排查后確定問題的所在。
B. 調(diào)用鏈下鉆報表
對于分布式調(diào)用跟蹤系統(tǒng)而言,不僅僅提供調(diào)用鏈功能,同時可以監(jiān)控所有中間件的具體情況。因此,在形成調(diào)用鏈的過程中也會形成一份詳細(xì)的調(diào)用監(jiān)控報表,與其他監(jiān)控的不同之處在于:該監(jiān)控報表是帶有上下鉆取功能。因為調(diào)用鏈可以形成各種維度的報表,不僅可以看到服務(wù)的情況,還可以查看其調(diào)用服務(wù)的情況,掌握清晰的調(diào)用鏈信息。
C. 全鏈路分析
全鏈路與調(diào)用鏈的區(qū)別是:全鏈路是一個應(yīng)用全局的概念,而調(diào)用鏈?zhǔn)菃误w調(diào)用的過程。分析全鏈路的價值主要體現(xiàn)在以下幾點:
鏈路拓?fù)湫螒B(tài)分析: 通過應(yīng)用之間的調(diào)用拓?fù)潢P(guān)系,分析調(diào)用過程的來源和去向,識別不合理調(diào)用來源;
依賴梳理和容量估算: 識別易故障點 / 性能瓶頸、接口出錯率等問題;根據(jù)鏈路調(diào)用比例、峰值 QPS 評估容量;
研發(fā)和管理人員可以快速通過以上視圖定位故障或問題節(jié)點,并通過節(jié)點查看詳細(xì)的接口調(diào)用分析與統(tǒng)計數(shù)據(jù),用戶可以很方便的找出問題所在。
全鏈路分析跟蹤的較大優(yōu)勢在于,所有分布式應(yīng)用之間的關(guān)系都是透明的,每個交易或訂單請求在日志分析的基礎(chǔ)上,都可以進行追本溯源,無需人工進行協(xié)查,有效降低運維和研發(fā)人員的排障時間成本。
智能運維要借助數(shù)據(jù)和算法才能實現(xiàn) ?
運維的發(fā)展階段經(jīng)歷了從標(biāo)準(zhǔn)化、工具化、自動化、到現(xiàn)在初露端倪的智能化,每個階段的發(fā)展都代表了生產(chǎn)力和效率的大幅提升,整個趨勢是不可避免的。智能時代的運維不是要讓運維人員失業(yè),而是對運維效率的提高有著極大的訴求,比如如何在錯綜復(fù)雜的環(huán)境中快速定位問題、root cause、甚至是故障預(yù)測,避免發(fā)生故障,保障應(yīng)用穩(wěn)定性。
林杰認(rèn)為:智能運維要借助數(shù)據(jù) (運維數(shù)據(jù)) 和算法才能實現(xiàn)。首先運維能力的發(fā)展不是直接跳到智能運維階段的,必然經(jīng)過標(biāo)準(zhǔn)化、工具化、到自動化的發(fā)展過程,只有高度完善的自動化才具備基礎(chǔ)能力。其次就是數(shù)據(jù)積累,需要大量的運維數(shù)據(jù),可以是日志數(shù)據(jù)、網(wǎng)絡(luò)抓包數(shù)據(jù)、數(shù)據(jù)庫數(shù)據(jù)等等。還有日常運維產(chǎn)生標(biāo)注的數(shù)據(jù),比如出一次故障后,運維人員會記錄下過程,這個過程會反饋到系統(tǒng),反過來提升運維水平。最后就是算法,到底采用哪類算法模型做持續(xù)優(yōu)化。
天弘基金在運維部門希望通過服務(wù)器性能日志采集分析,實時監(jiān)控應(yīng)用系統(tǒng)基礎(chǔ)資源的使用情況,通過采集客戶端 Agent 收集服務(wù)器和集群組件的 CPU、內(nèi)存使用率,以可視化形式展示資源運行狀況。
而袋鼠云智能運維解決方案基于自研的數(shù)據(jù)庫管控、日志分析和大數(shù)據(jù)平臺,可為天弘基金 (余額寶) 提供整體的運維解決方案。目前一期已接入數(shù)十個核心應(yīng)用,服務(wù)器規(guī)模數(shù)百臺,日志數(shù)據(jù)日增量達到 T 級規(guī)模,幫助其實現(xiàn)了日志集中管理、日志分析、業(yè)務(wù)全鏈路、故障定位、數(shù)據(jù)脫敏等應(yīng)用場景。故障發(fā)現(xiàn)、定位及恢復(fù)效率大大提高,提升系統(tǒng)穩(wěn)定性。
據(jù)悉,天弘基金云日志平臺項目已開始進行內(nèi)部推廣,在系統(tǒng)正式運行期間得到了用戶認(rèn)可,對用戶的具體價值體現(xiàn)在以下幾個方面:
運維人員:數(shù)據(jù)脫敏功能幫助運維人員解放人力;采集資源管控功能可以防止 Agent 程序?qū)Ψ?wù)器和應(yīng)用產(chǎn)生影響,有效避免災(zāi)難性故障發(fā)生。
研發(fā)人員:日志查詢功能可方便快捷的查詢?nèi)罩疚募?;調(diào)用鏈分析幫助研發(fā)人員快速定位故障原因和問題點,協(xié)助研發(fā)團隊優(yōu)化系統(tǒng)代碼并進行架構(gòu)治理。
業(yè)務(wù)人員:監(jiān)控告警功能可及時發(fā)現(xiàn)業(yè)務(wù)故障,較大程度上降低故障響應(yīng)時間,提升用戶服務(wù)體驗。
管理人員:智能運維可實時掌握服務(wù)資源運行情況,并能夠預(yù)測集群水位,提供基礎(chǔ)資源擴容建議。
寫在最后:
截至 11 月 12 日零點,2017 年天貓“ 雙十一 ”交易額定格在 1682.69 億元人民幣。不斷創(chuàng)新高的銷售額、交易峰值、支付峰值,這些驚人數(shù)字的背后倚仗的是怎樣的技術(shù)體系?智能化正逐漸走入 IT 行業(yè)乃至社會生活的各個方面。未來,利用大數(shù)據(jù)關(guān)聯(lián)分析與機器學(xué)習(xí)技術(shù)為運維系統(tǒng)賦予人工智能,提供從故障預(yù)防到故障定位、再到故障閉環(huán)的智能保障能力?;蛟S到那個時候,運維工程師也可以輕松玩轉(zhuǎn)雙十一,妥妥的購物買買買啦!
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://m.hztianpu.com/yun/3962.html
摘要:演講中,王志勇代表螞蟻金服首次向公眾介紹了螞蟻金服智能推薦引擎,分享了螞蟻金服利用人工智能和大數(shù)據(jù)能力在推薦引擎上沉淀的大量經(jīng)驗,并介紹了結(jié)合螞蟻自身優(yōu)勢打造的能夠靈活適配各種業(yè)務(wù)場景的智能推薦引擎解決方案及其能力和優(yōu)勢。 摘要:以數(shù)字金融新原力(The New Force of Digital Finance)為主題,螞蟻金服ATEC城市峰會于2019年1月4日上海如期舉辦。金融智能...
摘要:發(fā)布年雙十一促銷活動了,所有自營香港獨立服務(wù)器全部折優(yōu)惠,追加了香港阿里云專線服務(wù)器,也可享受折優(yōu)惠,另外商家還推出了上個元購買代金券的活動,優(yōu)惠多多,活動時間年月日年月日,有上車的盡快了。 ZJI發(fā)布2021年雙十一促銷活動了,所有自營香港獨立服務(wù)器全部55折優(yōu)惠,追加了香港阿里云專線服務(wù)器,也可享受55折優(yōu)惠,另外商家還推出了上個999元購買1100代金券的活動,優(yōu)惠多多,活動時間...
摘要:華為云華為云在云原生這場游戲中,最具競爭力的玩家之一。年,金山云在云原生領(lǐng)域推出了三款重磅產(chǎn)品星曜裸金屬服務(wù)器云服務(wù)器和云盤。在線上智博會上,浪潮云發(fā)布了經(jīng)過全新迭代升級的浪潮云,進一步提升平臺云原生服務(wù)能力。面對數(shù)字時代復(fù)雜系統(tǒng)的不確定性,傳統(tǒng)的 IT 應(yīng)用架構(gòu)研發(fā)交付周期長、維護成本高、創(chuàng)新升級難,煙囪式架構(gòu),開放性差、組件復(fù)用度低,這些都成為了企業(yè)業(yè)務(wù)快速增長的瓶頸。而云原生以其敏捷、...
摘要:活動地址美國云服務(wù)器帶寬高速回國,贈送防御配置帶寬年付折地址核三網(wǎng)直連點擊直達核三網(wǎng)直連點擊直達核三網(wǎng)直連點擊直達核三網(wǎng)直連點擊直達核三網(wǎng)直連點擊直達核三網(wǎng)直連點擊直達支付方式支付寶銀聯(lián) 活動地址:https://hncloud.com/activity/2021/1111 美國云服務(wù)器:CN2帶寬高速回國,贈送10G ddos防御 配置 帶...
摘要:活動地址香港云服務(wù)器免備案低延遲,帶寬高速回國,值低至配置帶寬年付折地址核三網(wǎng)直連點擊直達核三網(wǎng)直連點擊直達核三網(wǎng)直連點擊直達核三網(wǎng)直連點擊直達核三網(wǎng)直連點擊直達核三網(wǎng)直連點擊直達支付方式支付寶銀聯(lián) 活動地址:https://hncloud.com/activity/2021/1111 香港云服務(wù)器:免備案低延遲,CN2帶寬高速回國,PING值低至5ms ...
閱讀 3391·2023-04-25 22:47
閱讀 3878·2021-10-11 10:59
閱讀 2367·2021-09-07 10:12
閱讀 4352·2021-08-11 11:15
閱讀 3493·2019-08-30 13:15
閱讀 1812·2019-08-30 13:00
閱讀 1029·2019-08-29 14:02
閱讀 1743·2019-08-26 13:57