摘要:大快的大數(shù)據(jù)通用計(jì)算平臺(tái),已經(jīng)集成相同版本號(hào)的開(kāi)發(fā)框架的全部組件。,更是集成了大快的大數(shù)據(jù)一體化開(kāi)發(fā)框架開(kāi)發(fā)框架提供了大數(shù)據(jù)搜索自然語(yǔ)言處理和人工智能開(kāi)發(fā)中常用的二十多個(gè)類,通過(guò)總計(jì)一百余種方法,實(shí)現(xiàn)了倍以上的開(kāi)發(fā)效率的提升。
什么是大數(shù)據(jù)?進(jìn)入本世紀(jì)以來(lái),尤其是2010年之后,隨著互聯(lián)網(wǎng)特別是移動(dòng)互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)的增長(zhǎng)呈爆炸趨勢(shì),已經(jīng)很難估計(jì)全世界的電子設(shè)備中存儲(chǔ)的數(shù)據(jù)到底有多少,描述數(shù)據(jù)系統(tǒng)的數(shù)據(jù)量的計(jì)量單位從MB(1MB大約等于一百萬(wàn)字節(jié))、GB(1024MB)、TB(1024GB),一直向上攀升,目前,PB(等于1024TB)級(jí)的數(shù)據(jù)系統(tǒng)已經(jīng)很常見(jiàn),隨著移動(dòng)個(gè)人數(shù)據(jù)、社交網(wǎng)站、科學(xué)計(jì)算、證券交易、網(wǎng)站日志、傳感器網(wǎng)絡(luò)數(shù)據(jù)量的不斷加大,國(guó)內(nèi)擁有的總數(shù)據(jù)量早已超出 ZB(1ZB=1024EB,1EB=1024PB)級(jí)別。
傳統(tǒng)的數(shù)據(jù)處理方法是:隨著數(shù)據(jù)量的加大,不斷更新硬件指標(biāo),采用更加強(qiáng)大的CPU、更大容量的磁盤(pán)這樣的措施,但現(xiàn)實(shí)是:數(shù)據(jù)量增大的速度遠(yuǎn)遠(yuǎn)超出了單機(jī)計(jì)算和存儲(chǔ)能力提升的速度。
而“大數(shù)據(jù)”的處理方法是:采用多機(jī)器、多節(jié)點(diǎn)的處理大量數(shù)據(jù)方法,而采用這種新的處理方法,就需要有新的大數(shù)據(jù)系統(tǒng)來(lái)保證,系統(tǒng)需要處理多節(jié)點(diǎn)間的通訊協(xié)調(diào)、數(shù)據(jù)分隔等一系列問(wèn)題。
總之,采用多機(jī)器、多節(jié)點(diǎn)的方式,解決各節(jié)點(diǎn)的通訊協(xié)調(diào)、數(shù)據(jù)協(xié)調(diào)、計(jì)算協(xié)調(diào)問(wèn)題,處理海量數(shù)據(jù)的方式,就是“大數(shù)據(jù)”的思維。其特點(diǎn)是,隨著數(shù)據(jù)量的不斷加大,可以增加機(jī)器數(shù)量,水平擴(kuò)展,一個(gè)大數(shù)據(jù)系統(tǒng),可以多達(dá)幾萬(wàn)臺(tái)機(jī)器甚至更多。
Hadoop最初主要包含分布式文件系統(tǒng)HDFS和計(jì)算框架MapReduce兩部分,是從Nutch中獨(dú)立出來(lái)的項(xiàng)目。在2.0版本中,又把資源管理和任務(wù)調(diào)度功能從MapReduce中剝離形成YARN,使其他框架也可以像MapReduce那樣運(yùn)行在Hadoop之上。與之前的分布式計(jì)算框架相比,Hadoop隱藏了很多繁瑣的細(xì)節(jié),如容錯(cuò)、負(fù)載均衡等,更便于使用。
Hadoop也具有很強(qiáng)的橫向擴(kuò)展能力,可以很容易地把新計(jì)算機(jī)接入到集群中參與計(jì)算。在開(kāi)源社區(qū)的支持下,Hadoop不斷發(fā)展完善,并集成了眾多優(yōu)秀的產(chǎn)品如非關(guān)系數(shù)據(jù)庫(kù)HBase、數(shù)據(jù)倉(cāng)庫(kù)Hive、數(shù)據(jù)處理工具Sqoop、機(jī)器學(xué)習(xí)算法庫(kù)Mahout、一致性服務(wù)軟件ZooKeeper、管理工具Ambari等,形成了相對(duì)完整的生態(tài)圈和分布式計(jì)算事實(shí)上的標(biāo)準(zhǔn)。
大快的大數(shù)據(jù)通用計(jì)算平臺(tái)(DKH),已經(jīng)集成相同版本號(hào)的開(kāi)發(fā)框架的全部組件。如果在開(kāi)源大數(shù)據(jù)框架上部署大快的開(kāi)發(fā)框架,需要平臺(tái)的組件支持如下:
數(shù)據(jù)源與SQL引擎:DK.Hadoop、spark、hive、sqoop、flume、kafka
數(shù)據(jù)采集:DK.hadoop
數(shù)據(jù)處理模塊:DK.Hadoop、spark、storm、hive
機(jī)器學(xué)習(xí)和AI:DK.Hadoop、spark
NLP模塊:上傳服務(wù)器端JAR包,直接支持
搜索引擎模塊:不獨(dú)立發(fā)布
大快大數(shù)據(jù)平臺(tái)(DKH),是大快公司為了打通大數(shù)據(jù)生態(tài)系統(tǒng)與傳統(tǒng)非大數(shù)據(jù)公司之間的通道而設(shè)計(jì)的一站式搜索引擎級(jí),大數(shù)據(jù)通用計(jì)算平臺(tái)。傳統(tǒng)公司通過(guò)使用DKH,可以輕松的跨越大數(shù)據(jù)的技術(shù)鴻溝,實(shí)現(xiàn)搜索引擎級(jí)的大數(shù)據(jù)平臺(tái)性能。
? DKH,有效的集成了整個(gè)HADOOP生態(tài)系統(tǒng)的全部組件,并深度優(yōu)化,重新編譯為一個(gè)完整的更高性能的大數(shù)據(jù)通用計(jì)算平臺(tái),實(shí)現(xiàn)了各部件的有機(jī)協(xié)調(diào)。因此DKH相比開(kāi)源的大數(shù)據(jù)平臺(tái),在計(jì)算性能上有了高達(dá)5倍(最大)的性能提升。
? DKH,更是通過(guò)大快獨(dú)有的中間件技術(shù),將復(fù)雜的大數(shù)據(jù)集群配置簡(jiǎn)化至三種節(jié)點(diǎn)(主節(jié)點(diǎn)、管理節(jié)點(diǎn)、計(jì)算節(jié)點(diǎn)),極大的簡(jiǎn)化了集群的管理運(yùn)維,增強(qiáng)了集群的高可用性、高可維護(hù)性、高穩(wěn)定性。
? DKH,雖然進(jìn)行了高度的整合,但是仍然保持了開(kāi)源系統(tǒng)的全部?jī)?yōu)點(diǎn),并與開(kāi)源系統(tǒng)100%兼容,基于開(kāi)源平臺(tái)開(kāi)發(fā)的大數(shù)據(jù)應(yīng)用,無(wú)需經(jīng)過(guò)任何改動(dòng),即可在DKH上高效運(yùn)行,并且性能會(huì)有最高5倍的提升。
? DKH,更是集成了大快的大數(shù)據(jù)一體化開(kāi)發(fā)框架(FreeRCH), FreeRCH開(kāi)發(fā)框架提供了大數(shù)據(jù)、搜索、自然語(yǔ)言處理和人工智能開(kāi)發(fā)中常用的二十多個(gè)類,通過(guò)總計(jì)一百余種方法,實(shí)現(xiàn)了10倍以上的開(kāi)發(fā)效率的提升。
? DKH的SQL版本,還提供了分布式MySQL的集成,傳統(tǒng)的信息系統(tǒng),可無(wú)縫的實(shí)現(xiàn)面向大數(shù)據(jù)和分布式的跨越。
DKH標(biāo)準(zhǔn)平臺(tái)技術(shù)構(gòu)架圖
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.hztianpu.com/yun/72183.html
摘要:零基礎(chǔ)學(xué)習(xí)開(kāi)發(fā)先明白這層關(guān)系大數(shù)據(jù)無(wú)疑是當(dāng)前互聯(lián)網(wǎng)領(lǐng)域受關(guān)注熱度最高的詞之一,大數(shù)據(jù)技術(shù)的應(yīng)用正在潛移默化中對(duì)我們的生活和工作產(chǎn)生巨大的改變。將零基礎(chǔ)學(xué)習(xí)開(kāi)發(fā)這個(gè)問(wèn)題換個(gè)說(shuō)法也許就更容易讓人明白了,比如學(xué)習(xí)需要具備什么基礎(chǔ)知識(shí)。 零基礎(chǔ)學(xué)習(xí)hadoop開(kāi)發(fā)先明白這層關(guān)系大數(shù)據(jù)hadoop無(wú)疑是當(dāng)前互聯(lián)網(wǎng)領(lǐng)域受關(guān)注熱度最高的詞之一,大數(shù)據(jù)技術(shù)的應(yīng)用正在潛移默化中對(duì)我們的生活和工作產(chǎn)生巨大...
閱讀 2356·2021-11-10 11:35
閱讀 1065·2021-09-26 09:55
閱讀 2490·2021-09-22 15:22
閱讀 2381·2021-09-22 15:17
閱讀 3805·2021-09-09 09:33
閱讀 1887·2019-08-30 11:22
閱讀 1046·2019-08-30 10:57
閱讀 717·2019-08-29 16:10