DataX的限速與調優(yōu)

不知名網(wǎng)友發(fā)布于2023-01-11 11:02 / 5077人閱讀

DataX的限速與調優(yōu)

點擊上方“IT那活兒”公眾號，關注后了解更多內容，不管IT什么活兒，干就完了！！！

一

前言

眾所周知，當一個程序需要傳輸數(shù)據(jù)的時候，它肯定會想盡辦法占用掉設備的資源，但是，隨著對DataX深入使用可以發(fā)現(xiàn)，DataX并不會全力吃掉資源，所以究竟DataX是如何做到限速的？傳輸緩慢到底是限速原因還是其他原因？本文來一起探討下。

二

限速

我們知道是在core.json文件里面的speed方法里面限速DataX的，可以通過record記錄數(shù)和byte字節(jié)數(shù)來限速。

這個配置在CoreConstant類里面定義了:

選中常量復制并查找，可以看到有兩個地方調用了這個值：

分別是初始化、求最大通道數(shù)的時候。

接下來，看看這兩個配置在Channel類如何實現(xiàn)限速的。

Channel類里實現(xiàn)限速：

從下圖，可以看到在Channel初始化時，順帶初始化了限速的記錄數(shù)(recordSpeed)以及字節(jié)數(shù)(byteSpeed) ，接下來Control+F看看recordSpeed在哪里調用了。

可以看到在statPush方法里面用到了：

statPush整個流程的描述：

判斷byteSpeed（bps）和recordSpeed（tps）是否都大于0？如果不是，則退出；
根據(jù)當前的byteSpeed和設定的byteSpeed對比，求出睡眠時間（公式：currentByteSpeed * interval / this.byteSpeed- interval;）
根據(jù)當前的recordSpeed和設定的recordSpeed對比，求出睡眠時間（公式：currentRecordSpeed * interval / this.recordSpeed - interval;）
取休眠時間最大值；
Thread.sleep(sleepTime)來休眠；
實現(xiàn)限速。

下面貼上statPush的完整代碼：

三

調優(yōu)

首先我們知道，傳輸受兩個因素影響：

網(wǎng)絡本身的帶寬等硬件因素造成的影響；
DataX本身的參數(shù)。

即當覺得DataX傳輸速度慢時，需要從上述兩個個方面著手開始排查。

3.1 網(wǎng)絡本身的帶寬等硬件因素造成的影響

此部分主要需要了解網(wǎng)絡本身的情況，即從源端到目的端的帶寬是多少（實際帶寬計算公式），平時使用量和繁忙程度的情況，從而分析是否是本部分造成的速度緩慢。以下提供幾個思路：

可使用從源端到目的端scp，python http,nethogs等觀察實際網(wǎng)絡及網(wǎng)卡速度；
結合監(jiān)控觀察任務運行時間段時，網(wǎng)絡整體的繁忙情況，來判斷是否應將任務避開網(wǎng)絡高峰運行；
觀察任務機的負載情況，尤其是網(wǎng)絡和磁盤IO，觀察其是否成為瓶頸，影響了速度。

3.2 DataX本身的參數(shù)

1）全局

全局：提升每個channel的速度**

在DataX內部對每個Channel會有嚴格的速度控制，分兩種，一種是控制每秒同步的記錄數(shù)，另外一種是每秒同步的字節(jié)數(shù)，默認的速度限制是1MB/s，可以根據(jù)具體硬件情況設置這個byte速度或者record速度，一般設置byte速度，比如：我們可以把單個Channel的速度上限配置為5MB，舉例：

Json：
{
   "core":{
        "transport":{
            "channel":{
                "speed":{
                  "channel": 2, 此處為數(shù)據(jù)導入的并發(fā)度，建議根據(jù)服務器硬件進行調優(yōu)
                  "record":-1,此處解除對讀取行數(shù)的限制
                  "byte":-1,此處解除對字節(jié)的限制
                  "batchSize":204每次讀取batch的大小
                }
            }
        }
    },
    "job":{
            ...
        }
    }

2）局部

局部：提升DataX Job內Channel并發(fā)數(shù)**

并發(fā)數(shù)=taskGroup的數(shù)量每一個TaskGroup并發(fā)執(zhí)行的Task數(shù) (默認單個任務組的并發(fā)數(shù)量為5)。

提升job內Channel并發(fā)有三種配置方式：

配置全局Byte限速以及單Channel Byte限速，Channel個數(shù) = 全局Byte限速 / 單Channel Byte限速。
配置全局Record限速以及單Channel Record限速，Channel個數(shù) = 全局Record限速 / 單Channel Record限速。
直接配置Channel個數(shù)。

配置含義：

job.setting.speed.channel : channel并發(fā)數(shù)；
job.setting.speed.record : 全局配置channel的record限速；
job.setting.speed.byte：全局配置channel的byte限速。

core.transport.channel.speed.record：單channel的record限速；
core.transport.channel.speed.byte：單channel的byte限速。

舉例：

Json：
"setting": {
            "speed": {
                "channel": 2,
                "record":-1,
                "byte":-1,
                "batchSize":2048
            }
        }
    }
}

# channel增大，為防止OOM，需要修改datax工具的datax.py文件。

# 如下所示，可根據(jù)任務機的實際配置，提升-Xms與-Xmx，來防止OOM。

# tunnel并不是越大越好，過分大反而會影響宿主機的性能。

DEFAULT_JVM = "-Xms1g -Xmx1g -XX:+HeapDumpOnOutOfMemoryError 
-XX:HeapDumpPath=%s/log" % (DATAX_HOME)

注意事項：

此處根據(jù)服務器配置進行調優(yōu)，切記不可太大！否則直接Exception。以上為調優(yōu)，應該是可以針對每個json文件都可以進行調優(yōu)。

當提升DataX Job內Channel并發(fā)數(shù)時，調整JVM堆參數(shù)，原因如下：

當一個Job內Channel數(shù)變多后，內存的占用會顯著增加，因為DataX作為數(shù)據(jù)交換通道，在內存中會緩存較多的數(shù)據(jù)。
例如Channel中會有一個Buffer，作為臨時的數(shù)據(jù)交換的緩沖區(qū)，而在部分Reader和Writer的中，也會存在一些Buffer，為了防止jvm報內存溢出等錯誤，調大jvm的堆參數(shù)。
通常我們建議將內存設置為4G或者8G，這個也可以根據(jù)實際情況來調整。
調整JVM xms xmx參數(shù)的兩種方式：一種是直接更改datax.py；另一種是在啟動的時候，加上對應的參數(shù)，如下：python datax/bin/datax.py --jvm="-Xms8G -Xmx8G" XXX.json。

Channel個數(shù)并不是越多越好，原因如下：

Channel個數(shù)的增加，帶來的是更多的CPU消耗以及內存消耗。
如果Channel并發(fā)配置過高導致JVM內存不夠用，會出現(xiàn)的情況是發(fā)生頻繁的Full GC，導出速度會驟降，適得其反。

備注：

MysqlReader進行數(shù)據(jù)抽取時，如果指定splitPk，表示用戶希望使用splitPk代表的字段進行數(shù)據(jù)分片，DataX因此會啟動并發(fā)任務進行數(shù)據(jù)同步，這樣可以大大提供數(shù)據(jù)同步的效能，splitPk不填寫，包括不提供splitPk或者splitPk值為空，DataX視作使用單通道同步該表數(shù)據(jù)。

結語：

學習之路沒有固定的，先了解原理，再根據(jù)原理及執(zhí)行過程開始研究，DataX是開源軟件，能直接看到開發(fā)者的思路，更能對其進行研究和修改，使其更適合我們的工作。

本文作者：孫振興(上海新炬中北團隊）

本文來源：“IT那活兒”公眾號

云服務器 GPU云服務器 DataX datax安全 datax比較 datax加密

文章版權歸作者所有，未經(jīng)允許請勿轉載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉載請注明本文地址：http://m.hztianpu.com/yun/129097.html

DataPipeline |《Apache Kafka實戰(zhàn)》作者胡夕：Apache Kafka監(jiān)控與

摘要：主機監(jiān)控個人認為對于主機的監(jiān)控是最重要的。在實際監(jiān)控時可以有意識地驗證這一點。另外還有兩個線程池空閑使用率小關注，最好確保它們的值都不要低于，否則說明已經(jīng)非常的繁忙。此時需要調整線程池線程數(shù)。 showImg(https://segmentfault.com/img/bVbgpkO?w=1280&h=720); 胡夕，《Apache Kafka實戰(zhàn)》作者，北航計算機碩士畢業(yè)，現(xiàn)任某互金...

lvzishen 2019-07-24 10:47 評論0 收藏0
DataX在有贊大數(shù)據(jù)平臺的實踐

摘要：與大數(shù)據(jù)體系交互上報運行統(tǒng)計數(shù)據(jù)自帶了運行結果的統(tǒng)計數(shù)據(jù)，我們希望把這些統(tǒng)計數(shù)據(jù)上報到元數(shù)據(jù)系統(tǒng)，作為的過程元數(shù)據(jù)存儲下來。基于我們的開發(fā)策略，不要把有贊元數(shù)據(jù)系統(tǒng)的嵌入源碼，而是在之外獲取，截取出打印的統(tǒng)計信息再上報。一、需求有贊大數(shù)據(jù)技術應用的早期，我們使用 Sqoop 作為數(shù)據(jù)同步工具，滿足了 MySQL 與 Hive 之間數(shù)據(jù)同步的日常開發(fā)需求。隨著公司業(yè)務發(fā)展，數(shù)據(jù)同步的場景越...

JerryWangSAP 2019-05-22 17:07 評論0 收藏0

發(fā)表評論

登陸后可評論

0條評論

不知名網(wǎng)友

男|高級講師

我要關注我要私信

TA的文章

Oracle數(shù)據(jù)庫4031故障分析

閱讀 4317·2023-01-11 11:02
Oceanbase新版本復合分區(qū)添加分區(qū)操作

閱讀 4848·2023-01-11 11:02
VRRP高可用

閱讀 3945·2023-01-11 11:02
Docker技術之構建鏡像和網(wǎng)絡模式解析

閱讀 5647·2023-01-11 11:02
?CISCO 4500 主引擎版故障處理

閱讀 5136·2023-01-11 11:02
大數(shù)據(jù)開發(fā)系列五：kafka& zookeeper 配置kerberos認證

閱讀 6467·2023-01-11 11:02
自研實時計算模塊介紹及運維數(shù)據(jù)應用場景實施

閱讀 5860·2023-01-11 11:02
DataX的限速與調優(yōu)

閱讀 5078·2023-01-11 11:02

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

DataX的限速與調優(yōu)

Channel類里實現(xiàn)限速：

3.1 網(wǎng)絡本身的帶寬等硬件因素造成的影響

3.2 DataX本身的參數(shù)

1）全局

2）局部

注意事項：

備注：

結語：

本文作者：孫振興(上海新炬中北團隊）

本文來源：“IT那活兒”公眾號

相關文章

DataPipeline |《Apache Kafka實戰(zhàn)》作者胡夕：Apache Kafka監(jiān)控與

DataX在有贊大數(shù)據(jù)平臺的實踐

發(fā)表評論

0條評論

不知名網(wǎng)友

男|高級講師

TA的文章

Oracle數(shù)據(jù)庫4031故障分析

Oceanbase新版本復合分區(qū)添加分區(qū)操作

VRRP高可用

Docker技術之構建鏡像和網(wǎng)絡模式解析

?CISCO 4500 主引擎版故障處理

大數(shù)據(jù)開發(fā)系列五：kafka& zookeeper 配置kerberos認證

自研實時計算模塊介紹及運維數(shù)據(jù)應用場景實施

DataX的限速與調優(yōu)

最新活動