点击上方“IT那活儿”公众号,关注后了解更多内容,不管IT什么活儿,干就完了!!!
前 言
众所周知,当一个程序需要传输数据的时候,它肯定会想尽办法占用掉设备的资源,但是,随着对DataX深入使用可以发现,DataX并不会全力吃掉资源,所以究竟DataX是如何做到限速的?传输缓慢到底是限速原因还是其他原因?本文来一起探讨下。
限 速
statPush整个流程的描述:
调 优
首先我们知道,传输受两个因素影响:
此部分主要需要了解网络本身的情况,即从源端到目的端的带宽是多少(实际带宽计算公式),平时使用量和繁忙程度的情况,从而分析是否是本部分造成的速度缓慢。以下提供几个思路:
Json:
{
"core":{
"transport":{
"channel":{
"speed":{
"channel": 2, 此处为数据导入的并发度,建议根据服务器硬件进行调优
"record":-1,此处解除对读取行数的限制
"byte":-1,此处解除对字节的限制
"batchSize":204每次读取batch的大小
}
}
}
},
"job":{
...
}
}
提升job内Channel并发有三种配置方式:
配置含义:
Json:
"setting": {
"speed": {
"channel": 2,
"record":-1,
"byte":-1,
"batchSize":2048
}
}
}
}
DEFAULT_JVM = "-Xms1g -Xmx1g -XX:+HeapDumpOnOutOfMemoryError
-XX:HeapDumpPath=%s/log" % (DATAX_HOME)
当提升DataX Job内Channel并发数时,调整JVM堆参数,原因如下:
Channel个数并不是越多越好,原因如下:
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/129097.html
摘要:主机监控个人认为对于主机的监控是最重要的。在实际监控时可以有意识地验证这一点。另外还有两个线程池空闲使用率小关注,最好确保它们的值都不要低于,否则说明已经非常的繁忙。此时需要调整线程池线程数。 showImg(https://segmentfault.com/img/bVbgpkO?w=1280&h=720); 胡夕,《Apache Kafka实战》作者,北航计算机硕士毕业,现任某互金...
摘要:与大数据体系交互上报运行统计数据自带了运行结果的统计数据,我们希望把这些统计数据上报到元数据系统,作为的过程元数据存储下来。基于我们的开发策略,不要把有赞元数据系统的嵌入源码,而是在之外获取,截取出打印的统计信息再上报。一、需求 有赞大数据技术应用的早期,我们使用 Sqoop 作为数据同步工具,满足了 MySQL 与 Hive 之间数据同步的日常开发需求。 随着公司业务发展,数据同步的场景越...
阅读 3654·2023-01-11 11:02
阅读 4193·2023-01-11 11:02
阅读 2992·2023-01-11 11:02
阅读 5127·2023-01-11 11:02
阅读 4679·2023-01-11 11:02
阅读 5462·2023-01-11 11:02
阅读 5219·2023-01-11 11:02
阅读 3787·2023-01-11 11:02