摘要:殊不知機(jī)器只是成本,集群規(guī)模只說(shuō)明我們?cè)诖罅坷速M(fèi),不說(shuō)明任何其他問(wèn)題。這也是因?yàn)榻M織架構(gòu)決定軟件架構(gòu)的事情。節(jié)省所有人的時(shí)間。
越來(lái)越多的公司言并稱大數(shù)據(jù),而大數(shù)據(jù)管道和存儲(chǔ)集群的規(guī)模甚至可以是業(yè)務(wù)集群的一百倍的規(guī)模。這里有多少機(jī)器是真正在做有價(jià)值的事情,而有多少cpu cycle是白白被浪費(fèi)掉了呢?data pipeline 中充斥著驚人的浪費(fèi)!只是我們選擇視而不見(jiàn)。廉不知恥地把集群規(guī)模到了xxx臺(tái)做為自己的功勞。殊不知機(jī)器只是成本,集群規(guī)模只說(shuō)明我們?cè)诖罅坷速M(fèi),不說(shuō)明任何其他問(wèn)題。以下是我的吐槽正文:
重復(fù)建設(shè)大數(shù)據(jù)很火,寫簡(jiǎn)歷上非常好就業(yè)。于是各個(gè)部門都進(jìn)行著重復(fù)性地建設(shè),從數(shù)據(jù)上報(bào)開始就報(bào)多份,各自有各自的采集agent。看一個(gè)機(jī)器上agent的進(jìn)程名基本上可以推倒出一個(gè)公司的組織架構(gòu)。你要是用storm,我就用samza。你們都走日志kafka,我就用udp和statsd。你們用elasticsearch,我就用influxdb,后來(lái)的要擠進(jìn)來(lái)為了有區(qū)分度就用了druid。各種類似的技術(shù)棧被掛在數(shù)據(jù)管道的后面做著重復(fù)性的類似的工作。
RD太忙了,我們來(lái)兼容吧建設(shè)data pipeline的同學(xué)和做業(yè)務(wù)的RD是兩幫人。所以就出現(xiàn)了日志是“非結(jié)構(gòu)化數(shù)據(jù)”的需求。日志從來(lái)都不是非結(jié)構(gòu)化的好不好。因?yàn)楦銛?shù)據(jù)人懶得和RD溝通,或者不愿意推動(dòng)RD去修改業(yè)務(wù)代碼,所以就得做各種定制。什么正則解析啦,什么去掉時(shí)間戳的頭啦,什么multiline連接啦。就是json我都覺(jué)得是浪費(fèi)磁盤和cpu的序列化格式。
另外日志的路徑和rotate的方式總是多種多樣的吧。這也是因?yàn)榻M織架構(gòu)決定軟件架構(gòu)的事情。誰(shuí)規(guī)定了就一定是做data pipeline的人要去監(jiān)控業(yè)務(wù)的日志路徑和rotate方式。為什么不是data pipeline規(guī)定了一個(gè)目錄結(jié)構(gòu)讓業(yè)務(wù)一定要打到這個(gè)目錄里,而rotate為什么不能是agent發(fā)起的,日志寫入方去follow?
把這兩者的關(guān)系反轉(zhuǎn)過(guò)來(lái),可以節(jié)省大量在格式解析,序列化反序列化,日志分揀上帶來(lái)的無(wú)謂的開銷。制定規(guī)范和標(biāo)準(zhǔn)讓rd去調(diào)整業(yè)務(wù)代碼,而不是跟著業(yè)務(wù)后面去改采集和解析。
各自為戰(zhàn)的數(shù)據(jù)集群kafka是集群吧,logstash是集群吧,elasticsearch是集群吧。每個(gè)集群都有自己的分布式節(jié)點(diǎn)的管理系統(tǒng)(zk的,etcd的,自己擼的),都有自己的數(shù)據(jù)分區(qū)策略。數(shù)據(jù)在不同的集群中倒騰來(lái)倒騰去,就在不斷地做rehash,重新分組到不同的partition上。帶來(lái)的是巨大的內(nèi)網(wǎng)帶寬的消耗。
把數(shù)據(jù)從一個(gè)集群拷貝到另外一個(gè)集群就那么好玩么?吹噓自己每秒處理多少數(shù)據(jù)就那么爽?其實(shí)deep down,你知道你做的工作不過(guò)就是倒個(gè)手而已,不是么。
暴力檢索Map-reduce暴力全表掃描早就是過(guò)氣的技術(shù)了。暴力使用hadoop,或者使用hive隱形暴力地mr,堆大量機(jī)器地?fù)茢?shù)據(jù)。業(yè)務(wù)一些機(jī)器學(xué)習(xí)的算法真地需要這么干,但是大部分BI SQL,絕對(duì)是可以充分利用列式存儲(chǔ)和各種索引結(jié)構(gòu)的。無(wú)論是elasticsearch還是spark sql都有大量成熟的解決方案了。用索引和不用索引,那效率可是百倍的差距。
是的,全部吐槽無(wú)數(shù)據(jù)無(wú)干貨,純感性吐槽。
RoR的啟發(fā)縱觀現(xiàn)在Data pipeline & 監(jiān)控 & 日志檢索 & BI多維查詢的技術(shù)棧,非常類似當(dāng)年的spring,各種可插拔,各種可配置。而我們需要的就是ruby on rails,橫空出世,高舉出convention over configuration的旗號(hào),把一個(gè)集成好伸手就用不需思考的解決方案全盤端出。打通各自為戰(zhàn)的管道和存儲(chǔ)集群,整合最牛的索引和存儲(chǔ)格式,把data pipeline的拼裝從專業(yè)技術(shù)變成commodities。亟需這樣一個(gè)從業(yè)務(wù)內(nèi)打日志開始,到出時(shí)間序列圖的端到端的完整解決方案,把廣大從業(yè)人員從低水平的重復(fù)建設(shè)里解脫出來(lái)。
你不就是想省幾臺(tái)機(jī)器嘛不在乎這幾臺(tái)機(jī)器的公司多得是。省計(jì)算資源真沒(méi)啥好吹噓的。更為寶貴的資源是RD和PM的時(shí)間。當(dāng)產(chǎn)品研發(fā)的同學(xué)想要對(duì)一個(gè)事情進(jìn)行監(jiān)控,BI的時(shí)候,他能不能完全自主地把全流程跑完?現(xiàn)在很多時(shí)候我們需要考慮新增的數(shù)據(jù)需要占用不少的新機(jī)器,需要去申請(qǐng)。新打的日志要通知另外一個(gè)部門去采集,然后再通知另外一個(gè)部門去計(jì)算,然后去通知另外一個(gè)部門去做圖表。這樣的效率能高嗎?搞數(shù)據(jù)的部門別高冷地一副帶你的數(shù)據(jù)來(lái),帶你的需求來(lái),哦對(duì)了,帶你的機(jī)器來(lái),我?guī)湍愀愀愕膽B(tài)度。而是真地實(shí)現(xiàn)平臺(tái)化,自助化。別各個(gè)部門都跟著業(yè)務(wù)后面做需求,我這加點(diǎn)東西,你那就得加點(diǎn)東西。節(jié)省所有人的時(shí)間。時(shí)間才是最寶貴的東西。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.hztianpu.com/yun/17532.html
摘要:寫在前面的話最近互聯(lián)網(wǎng)朋友圈充斥著一股恐慌的氣息。本人作為一名,萬(wàn)不敢稱資深,只是呆過(guò)幾年大型央企和大型互聯(lián)網(wǎng)企業(yè),聊有一點(diǎn)自己的看法罷了。如果不放心,以一周為期,對(duì)展示在面前的機(jī)會(huì)進(jìn)行初步分級(jí)。也可以略高于期望,以此探一探對(duì)方的反應(yīng)。 showImg(https://segmentfault.com/img/bVblxeY?w=1008&h=298); 寫在前面的話 最近互聯(lián)網(wǎng)朋...
摘要:有分支預(yù)測(cè)期的我們來(lái)看分支預(yù)測(cè)器在條件分支跳轉(zhuǎn)中的應(yīng)用?,F(xiàn)代流水線級(jí)數(shù)非常長(zhǎng),分支預(yù)測(cè)失敗可能會(huì)損失個(gè)左右的時(shí)鐘周期,因此對(duì)于復(fù)雜的流水線,好的分支預(yù)測(cè)器非常重要。 說(shuō)明: 本文以stackoverflow上Why is it faster to process a sorted array than an unsorted array?為原型,翻譯了問(wèn)題和高票回答并加入了大量補(bǔ)充說(shuō)明...
摘要:下載器下載器負(fù)責(zé)獲取頁(yè)面數(shù)據(jù)并提供給引擎,而后提供給。下載器中間件下載器中間件是在引擎及下載器之間的特定鉤子,處理傳遞給引擎的。一旦頁(yè)面下載完畢,下載器生成一個(gè)該頁(yè)面的,并將其通過(guò)下載中間件返回方向發(fā)送給引擎。 作者:xiaoyu微信公眾號(hào):Python數(shù)據(jù)科學(xué)知乎:Python數(shù)據(jù)分析師 在爬蟲的路上,學(xué)習(xí)scrapy是一個(gè)必不可少的環(huán)節(jié)。也許有好多朋友此時(shí)此刻也正在接觸并學(xué)習(xí)sc...
閱讀 1273·2021-09-30 09:47
閱讀 3839·2021-09-06 15:02
閱讀 1851·2021-09-01 10:46
閱讀 2430·2019-08-30 15:52
閱讀 697·2019-08-29 15:28
閱讀 1928·2019-08-29 15:08
閱讀 1224·2019-08-29 13:28
閱讀 2627·2019-08-29 12:19