#yyds干貨盤點(diǎn)#HBase 的協(xié)處理器詳細(xì)剖析

番茄西紅柿發(fā)布于2021-11-22 14:56 / 3198人閱讀

摘要：靜態(tài)加載的協(xié)處理器稱之為動(dòng)態(tài)加載的協(xié)處理器稱之為。方案方案方案協(xié)處理器方案方案方案常見的二級(jí)索引我們一般可以借助各種其他的方式來實(shí)現(xiàn)，例如或者或者等。

1. 起源

Hbase 作為列族數(shù)據(jù)庫最經(jīng)常被人詬病的特性包括：無法輕易建立“二級(jí)索引”，難以執(zhí)行求和、計(jì)數(shù)、排序等操作。

比如，在舊版本的(<0.92)Hbase 中，統(tǒng)計(jì)數(shù)據(jù)表的總行數(shù)，需要使用 Counter 方法，執(zhí)行一次 MapReduce Job 才能得到。

雖然 HBase 在數(shù)據(jù)存儲(chǔ)層中集成了 MapReduce，能夠有效用于數(shù)據(jù)表的分布式計(jì)算。然而在很多情況下，做一些簡(jiǎn)單的相加或者聚合計(jì)算的時(shí)候，如果直接將計(jì)算過程放置在 server 端，能夠減少通訊開銷，從而獲得很好的性能提升。于是， HBase 在 0.92 之后引入了協(xié)處理器(coprocessors)，實(shí)現(xiàn)一些激動(dòng)人心的新特性：能夠輕易建立二次索引、復(fù)雜過濾器(謂詞下推)以及訪問控制等。

2. 協(xié)處理器有兩種： observer 和 endpoint

1) observer 協(xié)處理器

Observer 類似于傳統(tǒng)數(shù)據(jù)庫中的觸發(fā)器，當(dāng)發(fā)生某些事件的時(shí)候這類協(xié)處理器會(huì)被?Server 端調(diào)用。

Observer Coprocessor 就是一些散布在 HBase Server 端代碼中的 hook 鉤子，在固定的事件發(fā)生時(shí)被調(diào)用。

比如： put 操作之前有鉤子函數(shù) prePut，該函數(shù)在 put 操作執(zhí)行前會(huì)被 Region Server 調(diào)用；在 put 操作之后則有 postPut 鉤子函數(shù)。

以?HBase0.92?版本為例，它提供了三種觀察者接口：

RegionObserver：提供客戶端的數(shù)據(jù)操縱事件鉤子：?Get、?Put、?Delete、?Scan?等。
WALObserver：提供?WAL?相關(guān)操作鉤子。
MasterObserver：提供?DDL-類型的操作鉤子。如創(chuàng)建、刪除、修改數(shù)據(jù)表等。

到?0.96?版本又新增一個(gè)?RegionServerObserver

下圖是以 RegionObserver 為例子講解 Observer 這種協(xié)處理器的原理：

2) endpoint 協(xié)處理器

Endpoint 協(xié)處理器類似傳統(tǒng)數(shù)據(jù)庫中的存儲(chǔ)過程，客戶端可以調(diào)用這些 Endpoint 協(xié)處理器執(zhí)行一段 Server 端代碼，并將 Server 端代碼的結(jié)果返回給客戶端進(jìn)一步處理，最常見的用法就是進(jìn)行聚集操作。

如果沒有協(xié)處理器，當(dāng)用戶需要找出一張表中的最大數(shù)據(jù)，即 max 聚合操作，就必須進(jìn)行全表掃描，在客戶端代碼內(nèi)遍歷掃描結(jié)果，并執(zhí)行求最大值的操作。這樣的方法無法利用底層集群的并發(fā)能力，而將所有計(jì)算都集中到 Client 端統(tǒng)一執(zhí)行，勢(shì)必效率低下。

利用 Coprocessor，用戶可以將求最大值的代碼部署到 HBase Server 端，HBase 將利用底層 cluster 的多個(gè)節(jié)點(diǎn)并發(fā)執(zhí)行求最大值的操作。即在每個(gè) Region 范圍內(nèi)?執(zhí)行求最大值的代碼，將每個(gè) Region 的最大值在 Region Server 端計(jì)算出，僅僅將該 max?值返回給客戶端。在客戶端進(jìn)一步將多個(gè) Region 的最大值進(jìn)一步處理而找到其中的最大值。這樣整體的執(zhí)行效率就會(huì)提高很多。

下圖是 EndPoint 的工作原理：

3. 協(xié)處理器加載方式?

?協(xié)處理器的加載方式有兩種，我們稱之為靜態(tài)加載方式（ Static Load）和動(dòng)態(tài)加載方式（ Dynamic Load）。

靜態(tài)加載的協(xié)處理器稱之為 System Coprocessor

動(dòng)態(tài)加載的協(xié)處理器稱之為 Table Coprocessor。

1) 靜態(tài)加載?

通過修改 hbase-site.xml 這個(gè)文件來實(shí)現(xiàn)，啟動(dòng)全局 aggregation，能過操縱所有的表上的數(shù)據(jù)。只需要添加如下代碼：

hbase.coprocessor.user.region.classesorg.apache.hadoop.hbase.coprocessor.AggregateImplementation

2) 動(dòng)態(tài)加載

啟用表 aggregation，只對(duì)特定的表生效。通過 HBase Shell 來實(shí)現(xiàn)。

disable 指定表

hbase> disable mytable

添加 aggregation

hbase> alter mytable, METHOD => table_att,coprocessor=>|org.apache.Hadoop.hbase.coprocessor.AggregateImplementation||

重啟指定表

hbase> enable mytable

協(xié)處理器卸載

disable mytablealter mytable, METHOD => table_att_unset,NAME=>coprocessor$1enable test

HBase當(dāng)中的二級(jí)索引的簡(jiǎn)要介紹

由于HBase的查詢比較弱，如果需要實(shí)現(xiàn)類似于 select name,salary,count(1),max(salary) from user group by name,salary order by salary 等這樣的復(fù)雜性的統(tǒng)計(jì)需求，基本上不可能，或者說比較困難，所以我們?cè)谑褂肏Base的時(shí)候，一般都會(huì)借助二級(jí)索引的方案來進(jìn)行實(shí)現(xiàn)。

HBase的一級(jí)索引就是rowkey，我們只能通過rowkey進(jìn)行檢索。如果我們相對(duì)hbase里面列族的列列進(jìn)行一些組合查詢，就需要采用HBase的二級(jí)索引方案來進(jìn)行多條件的查詢。

1.?MapReduce方案?
2.?ITHBASE（Indexed-Transanctional HBase）方案?
3.?IHBASE（Index HBase）方案?
4.?Hbase Coprocessor(協(xié)處理器)方案?
5.?Solr+hbase方案
6.?CCIndex（complementalclustering index）方案

常見的二級(jí)索引我們一般可以借助各種其他的方式來實(shí)現(xiàn)，例如Phoenix或者solr或者ES等。

GPU云服務(wù)器云服務(wù)器 yyds干貨盤點(diǎn) 性能測(cè)試 yyds干貨盤點(diǎn)Java ASM系列：（ yyds干貨盤點(diǎn)學(xué)不懂Netty？看不懂 hbase的協(xié)處理器

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://m.hztianpu.com/yun/124248.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

番茄西紅柿

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

tensor

閱讀 847·2023-04-25 19:43
Windows 下安裝 XGBoost

閱讀 4121·2021-11-30 14:52
Hadoop 2.6.0 啟動(dòng)問題 lib/native/libhadoop.so which mi

閱讀 3931·2021-11-30 14:52
VmShell：黑五美國(guó)VPS,免費(fèi)先開通測(cè)試,滿意后付款!支持tiktok美區(qū)

閱讀 4027·2021-11-29 11:00
百度智能云：云產(chǎn)品特惠福利,1核2G輕量應(yīng)用服務(wù)器僅48元/年

閱讀 3922·2021-11-29 11:00
Linux系統(tǒng)和寶塔面板如何啟用禁ping功能?

閱讀 4039·2021-11-29 11:00
301重定向怎么做?301重定向設(shè)置方法有幾種

閱讀 3771·2021-11-29 11:00
wordpress網(wǎng)站重定向次數(shù)過多的解決方法

閱讀 6610·2021-11-29 11:00

成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲中文字幕日韩无码

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！

#yyds干貨盤點(diǎn)#HBase 的協(xié)處理器詳細(xì)剖析

1. 起源

2. 協(xié)處理器有兩種： observer 和 endpoint

1) observer 協(xié)處理器

2) endpoint 協(xié)處理器

3. 協(xié)處理器加載方式?

1) 靜態(tài)加載?

2) 動(dòng)態(tài)加載

HBase當(dāng)中的二級(jí)索引的簡(jiǎn)要介紹

相關(guān)文章

**圖解 Eureka 的緩存架構(gòu) #yyds干貨盤點(diǎn)#**

**#yyds干貨盤點(diǎn)#學(xué)不懂Netty？看不懂源碼？不存在的，這篇文章手把手帶你閱讀Netty源碼**

**#yyds干貨盤點(diǎn)#Linux驅(qū)動(dòng)中container_of的作用**

發(fā)表評(píng)論

0條評(píng)論

番茄西紅柿

男|高級(jí)講師

TA的文章

tensor

Windows 下安裝 XGBoost

Hadoop 2.6.0 啟動(dòng)問題 lib/native/libhadoop.so which mi

VmShell：黑五美國(guó)VPS,免費(fèi)先開通測(cè)試,滿意后付款!支持tiktok美區(qū)

百度智能云：云產(chǎn)品特惠福利,1核2G輕量應(yīng)用服務(wù)器僅48元/年

Linux系統(tǒng)和寶塔面板如何啟用禁ping功能?

301重定向怎么做?301重定向設(shè)置方法有幾種

wordpress網(wǎng)站重定向次數(shù)過多的解決方法

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！

#yyds干貨盤點(diǎn)#HBase 的協(xié)處理器詳細(xì)剖析

1. 起源

2. 協(xié)處理器有兩種： observer 和 endpoint

1) observer 協(xié)處理器

2) endpoint 協(xié)處理器

3. 協(xié)處理器加載方式?

1) 靜態(tài)加載?

2) 動(dòng)態(tài)加載

HBase當(dāng)中的二級(jí)索引的簡(jiǎn)要介紹

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！