点击上方“IT那活儿”公众号,关注后了解更多内容,不管IT什么活儿,干就完了!!!
前 言
众所周知,当一个程序需要传输数据的时候,它肯定会想尽办法占用掉设备的资源,但是,随着对DataX深入使用可以发现,DataX并不会全力吃掉资源,所以究竟DataX是如何做到限速的?传输缓慢到底是限速原因还是其他原因?本文来一起探讨下。
限 速
statPush整个流程的描述:
调 优
首先我们知道,传输受两个因素影响:
此部分主要需要了解网络本身的情况,即从源端到目的端的带宽是多少(实际带宽计算公式),平时使用量和繁忙程度的情况,从而分析是否是本部分造成的速度缓慢。以下提供几个思路:
Json:
{
"core":{
"transport":{
"channel":{
"speed":{
"channel": 2, 此处为数据导入的并发度,建议根据服务器硬件进行调优
"record":-1,此处解除对读取行数的限制
"byte":-1,此处解除对字节的限制
"batchSize":204每次读取batch的大小
}
}
}
},
"job":{
...
}
}
提升job内Channel并发有三种配置方式:
配置含义:
Json:
"setting": {
"speed": {
"channel": 2,
"record":-1,
"byte":-1,
"batchSize":2048
}
}
}
}
DEFAULT_JVM = "-Xms1g -Xmx1g -XX:+HeapDumpOnOutOfMemoryError
-XX:HeapDumpPath=%s/log" % (DATAX_HOME)
当提升DataX Job内Channel并发数时,调整JVM堆参数,原因如下:
Channel个数并不是越多越好,原因如下:
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/129097.html
ElasticSearch是一个强大的搜索服务器,基于Apache Lucene的全文搜索引擎开发,具有高性能、分布式和零配置的优点。在当前的项目中,我们希望ES能承担亿级文档的搜索,而ES也证明了即便面对这样的数据规模,也能实现十分迅...
... 1.集群监控采集,配置与处理 2.生产集群服务监控与调优 3.集群安全,权限管理 4.Prometheus+Grafana+自定义 8.集群运维实战与案例剖析(几十个生产案例) 集群生产应用中面临者各种各样的治理,如存储治理...
...天我们就来讨论一下。 一、Kafka综述 在讨论具体的监控与调优之前,我想用一张PPT图来简单说明一下当前Kafka生态系统的各个组件。就像我前面所说,Kafka目前已经进化成了一个流处理平台,除了核心的消息队列组件Kafka core之外...
...天我们就来讨论一下。 一、Kafka综述 在讨论具体的监控与调优之前,我想用一张PPT图来简单说明一下当前Kafka生态系统的各个组件。就像我前面所说,Kafka目前已经进化成了一个流处理平台,除了核心的消息队列组件Kafka core之外...
...步需求,我们计划基于开源做改造,考察的对象主要是 DataX 和 Sqoop,它们之间的功能对比如下 功能 DataX Sqoop 运行模式 单进程多线程 MapReduce MySQL读写 单机压力大;读写粒度容易控制 MapReduce 模式重,写出错处理麻烦 Hive...
阅读 2789·2023-01-11 11:02
阅读 3331·2023-01-11 11:02
阅读 1856·2023-01-11 11:02
阅读 3591·2023-01-11 11:02
阅读 3084·2023-01-11 11:02
阅读 3533·2023-01-11 11:02
阅读 3230·2023-01-11 11:02
阅读 1583·2023-01-11 11:02