资讯专栏INFORMATION COLUMN

利用ganglia调优hadoop

SmallBoyO / 648人阅读

摘要:且系统会出现严重过载情况。对于这个程序来说调整为的时候需要小时分钟。从这个结果可知对于该平台的应该是才是最优的。结论在调优这块,有很多现成的经验可供参考。但是对于具体应用,我们应该根据实际,利用性能监控工具来调整参数。

利用ganglia 监控集群状态为调优提供依据

           单位同事在对Hadoop集群调优的时候,大多数看中的是个体.看中的是本段代码的执行情况.而很少从整集群的资源利用方面考虑. 本文提供一种方法在对hadoop调优的时候从整个资源利用方面入手进行调优.

          mapred.tasktracker.map.tasks.maximum  (较大的map数量)

          mapred.tasktracker.reduce.tasks.maximum (较大的reduce数量)

         现在我的主机配置是48核的cpu 64G内存,我怎么确定上面两个参数呢? 询问了有经验的同事我觉得下面的规则比较适合

<

建议:如果主机上没有其他应用,就可以设置为 map+reduce+1=cpu_cores(为守护进程留一个);如果主机上不只mapreduce任务,则设置为map+reduce+1< cpu_cores,以便为其他应用预留资源,而且一般设置都是map数>reduce数。其实除了考虑核数外还需要考虑内存的限制,详情见下面mapred.child.Java.opts的设置

>

        这样配置合理吗? 为什么合理? 事实在那里? 我没有在网上收集到相关的测试报告.对这种规则持怀疑态度. 至少在我目前的环境中我不能证明这种规则是错误的,也不能证明是正确的.不过当我对ganglia的逐渐理解加深.我有机会验证上面的规则了(废话多了)

        转入正题,在我目前的环境中hadoop+hive 很多程序都是简单的关联.个人认为cpu消耗不高.故 map+reduce 的值可以大于48(设想) .我做了下面的验证.不改变现有配置运行一个大程序(占用所有map与reduce)用ganglia监控得到如下图(图片省略)观察图片cpu使用率不 到60%.

       逐渐增大map与reduce数量。当总数达到54的时候每个任务执行速度会慢很多。且系统会出现严重过载情况。而到达52时基本与最开始配置的30个 map中每个任务执行的速度一致。且这个时候系统cpu使用率90%左右浮动 。对于这个程序来说调整为52的时候需要1小时30分钟。而以前30个(map 20 reduce10)需要1小时50分。 从这个结果可知对于该平台map+reduce的应该是52才是最优的。


结论:在hadoop调优这块,有很多现成的经验可供参考。但是对于具体应用,我们应该根据实际,利用性能监控工具来调整参数。这样才能得到针对具体平台的最优参数。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/3827.html

相关文章

  • cdh调优

      CDH(Cloudera Distribution Including Apache Hadoop)是一个用于在企业中部署和管理Apache Hadoop生态系统的分发版本。CDH包含了Hadoop核心组件,如HDFS、YARN和MapReduce,以及许多其他工具,如Apache Hive、Apache Pig、Apache Spark和Apache HBase。  在CDH中进行调优的...

    白马啸西风 评论0 收藏0
  • 大数据技术Hadoop面试题,看看你能答对多少?答案在后面

    摘要:下列哪个是运行的模式答案单机版伪分布式分布式提供哪几种安装的方法答案判断题不仅可以进行监控,也可以进行告警。但是在预警以及发生事件后通知用户上并不擅长。错误分析一旦节点宕机,数据恢复是一个难题命令用于检测损坏块。 单项选择题1. 下面哪个程序负责 HDFS 数据存储。a)NameNodeb)Jobtrackerc)Datanoded)secondaryNameNodee)tasktracke...

    JerryC 评论0 收藏0
  • Ganglia api接口安装(python版)

    摘要:是发起的一个开源集群监视项目,设计用于测量数以千计的节点。需要的环境有在目录下要包含以下三个配置文件在目录下创建文件用来记录日志,并给与权限,保证可读写。在后台运行程序若报错,一些信息会存在里。 Ganglia是UC Berkeley发起的一个开源集群监视项目,设计用于测量数以千计的节点。Ganglia本身没有api接口,...

    不知名网友 评论0 收藏0
  • Hadoop虚拟化的性能对比和调优经验

    摘要:虚拟化环境和物理环境的性能对比图显示了性能调优试验的部署样式,一台物理服务器上只部署一台虚拟机,和一起跑在同一个节点中。试验结果在图中显示,虚拟化相对于物理环境的性能对比几乎是持平的。       Hadoop和其他消耗不同类型资源的应用一起部署共享数据中心可以提高总体资源利用率;  ·灵活的虚拟机操作使得用户可以动态的根据数据中心资源创建、扩展自己的Hadoop集群,也可以缩小当前集群、释...

    longshengwang 评论0 收藏0
  • Hadoop生态图谱

    摘要:当下已经成长为一个庞大的体系,貌似只要和海量数据相关的,没有哪个领域缺少的身影,下面是一个生态系统的图谱,详细的列举了在这个生态系统中出现的各种数据工具。 当下Hadoop已经成长为一个庞大的体系,貌似只要和海量数据相关的,没有哪个领域缺少Hadoop的身影,下面是一个Hadoop生态系统的图谱,详细的列举了在Hadoop这个生态系统中出现的各种数据工具。 这一切,都起源自Web数据爆炸时...

    enda 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<