摘要:大數(shù)據(jù)的應(yīng)用開發(fā)過(guò)于偏向底層,具有學(xué)習(xí)難度大,涉及技術(shù)面廣的問(wèn)題,這制約了大數(shù)據(jù)的普及。傳統(tǒng)公司通過(guò)使用,可以輕松的跨越大數(shù)據(jù)的技術(shù)鴻溝,實(shí)現(xiàn)搜索引擎級(jí)的大數(shù)據(jù)平臺(tái)性能。
大數(shù)據(jù)的應(yīng)用開發(fā)過(guò)于偏向底層,具有學(xué)習(xí)難度大,涉及技術(shù)面廣的問(wèn)題,這制約了大數(shù)據(jù)的普及。現(xiàn)在需要一種技術(shù),把大數(shù)據(jù)開發(fā)中一些通用的,重復(fù)使用的基礎(chǔ)代碼、算法封裝為類庫(kù),降低大數(shù)據(jù)的學(xué)習(xí)門檻,降低開發(fā)難度,提高大數(shù)據(jù)項(xiàng)目的開發(fā)效率。
大數(shù)據(jù)在工作中的應(yīng)用有三種:與業(yè)務(wù)相關(guān),比如用戶畫像、風(fēng)險(xiǎn)控制等;
與決策相關(guān),數(shù)據(jù)科學(xué)的領(lǐng)域,了解統(tǒng)計(jì)學(xué)、算法,這是數(shù)據(jù)科學(xué)家的范疇;與工程相關(guān),如何實(shí)施、如何實(shí)現(xiàn)、解決什么業(yè)務(wù)問(wèn)題,這是數(shù)據(jù)工程師的工作。
數(shù)據(jù)源的特點(diǎn)決定數(shù)據(jù)采集與數(shù)據(jù)存儲(chǔ)的技術(shù)選型,我根據(jù)數(shù)據(jù)源的特點(diǎn)將其分為四大類:
第一類:從來(lái)源來(lái)看分為內(nèi)部數(shù)據(jù)和外部數(shù)據(jù);
第二類:從結(jié)構(gòu)來(lái)看分為非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù);
第三類:從可變性來(lái)看分為不可變可添加數(shù)據(jù)和可修改刪除數(shù)據(jù);
第四類,從規(guī)模來(lái)看分為大量數(shù)據(jù)和小量數(shù)據(jù)
大數(shù)據(jù)平臺(tái)第一個(gè)要素就是數(shù)據(jù)源,我們要處理的數(shù)據(jù)源往往是在業(yè)務(wù)系統(tǒng)上,數(shù)據(jù)分析的時(shí)候可能不會(huì)直接對(duì)業(yè)務(wù)的數(shù)據(jù)源進(jìn)行處理,而是先經(jīng)過(guò)數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ),之后才是數(shù)據(jù)分析和數(shù)據(jù)處理。
從整個(gè)大的生態(tài)圈可以看出,要完成數(shù)據(jù)工程需要大量的資源;數(shù)據(jù)量很大需要集群;要控制和協(xié)調(diào)這些資源需要監(jiān)控和協(xié)調(diào)分派;面對(duì)大規(guī)模的數(shù)據(jù)怎樣部署更方便更容易;還牽扯到日志、安全、還可能要和云端結(jié)合起來(lái),這些都是大數(shù)據(jù)圈的邊緣,同樣都很重要。
大快大數(shù)據(jù)平臺(tái)(DKH),是大快公司為了打通大數(shù)據(jù)生態(tài)系統(tǒng)與傳統(tǒng)非大數(shù)據(jù)公司之間的通道而設(shè)計(jì)的一站式搜索引擎級(jí),大數(shù)據(jù)通用計(jì)算平臺(tái)。傳統(tǒng)公司通過(guò)使用DKH,可以輕松的跨越大數(shù)據(jù)的技術(shù)鴻溝,實(shí)現(xiàn)搜索引擎級(jí)的大數(shù)據(jù)平臺(tái)性能。
? DKH,有效的集成了整個(gè)HADOOP生態(tài)系統(tǒng)的全部組件,并深度優(yōu)化,重新編譯為一個(gè)完整的更高性能的大數(shù)據(jù)通用計(jì)算平臺(tái),實(shí)現(xiàn)了各部件的有機(jī)協(xié)調(diào)。因此DKH相比開源的大數(shù)據(jù)平臺(tái),在計(jì)算性能上有了高達(dá)5倍(最大)的性能提升。
? DKH,更是通過(guò)大快獨(dú)有的中間件技術(shù),將復(fù)雜的大數(shù)據(jù)集群配置簡(jiǎn)化至三種節(jié)點(diǎn)(主節(jié)點(diǎn)、管理節(jié)點(diǎn)、計(jì)算節(jié)點(diǎn)),極大的簡(jiǎn)化了集群的管理運(yùn)維,增強(qiáng)了集群的高可用性、高可維護(hù)性、高穩(wěn)定性。
? DKH,雖然進(jìn)行了高度的整合,但是仍然保持了開源系統(tǒng)的全部?jī)?yōu)點(diǎn),并與開源系統(tǒng)100%兼容,基于開源平臺(tái)開發(fā)的大數(shù)據(jù)應(yīng)用,無(wú)需經(jīng)過(guò)任何改動(dòng),即可在DKH上高效運(yùn)行,并且性能會(huì)有最高5倍的提升。
? DKH,更是集成了大快的大數(shù)據(jù)一體化開發(fā)框架(FreeRCH), FreeRCH開發(fā)框架提供了大數(shù)據(jù)、搜索、自然語(yǔ)言處理和人工智能開發(fā)中常用的二十多個(gè)類,通過(guò)總計(jì)一百余種方法,實(shí)現(xiàn)了10倍以上的開發(fā)效率的提升。
? DKH的SQL版本,還提供了分布式MySQL的集成,傳統(tǒng)的信息系統(tǒng),可無(wú)縫的實(shí)現(xiàn)面向大數(shù)據(jù)和分布式的跨越。
DKH標(biāo)準(zhǔn)平臺(tái)技術(shù)構(gòu)架圖
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.hztianpu.com/yun/72161.html
摘要:云和大數(shù)據(jù)也不例外。最終觀點(diǎn)基于以上考慮建立一套固有的基礎(chǔ)架構(gòu),你將會(huì)看到大數(shù)據(jù)和云之間是一種天作之合的組合。 在2013年三月音樂(lè)電影藝術(shù)節(jié)上,Motley Fool的Tim Byers說(shuō)過(guò):在很多方面,云和大數(shù)據(jù)越來(lái)越密不可分且功能相似-云資源用來(lái)支撐大數(shù)據(jù)的存儲(chǔ)及項(xiàng)目,而且大數(shù)據(jù)相對(duì)于云來(lái)說(shuō)是一個(gè)龐大的業(yè)務(wù)案例。大數(shù)據(jù)和云技術(shù)的最終聯(lián)姻,必定是天作之合。 ??? 聽(tīng)起來(lái)雖然浪漫,但我們...
閱讀 2148·2021-09-26 10:19
閱讀 3409·2021-09-24 10:25
閱讀 1874·2019-12-27 11:39
閱讀 2110·2019-08-30 15:43
閱讀 838·2019-08-29 16:08
閱讀 3677·2019-08-29 16:07
閱讀 1049·2019-08-26 11:30
閱讀 1409·2019-08-26 10:41