资讯专栏INFORMATION COLUMN

spark集群部署-硬件配置官方建议

Andrman / 2292人阅读

摘要:存储系统因为需要从外部的存储系统或文件系统读取数据例如等,所有让任务尽可能的接近数据本地,让和部署到相同的节点上数据本地性将计算任务推送到数据所在地,如果不能保证,也要尽可能的让计算任务接近数据所在地磁盘虽然是内存计算,但当数据在内存中无法

1、存储系统
因为spark job需要从外部的存储系统(或文件系统)读取数据(例如:hbase、hdfs等),所有让spark任务尽可能的接近数据本地,让spark和hadoop部署到相同的节点上;数据本地性:将计算任务推送到数据所在地,如果不能保证,也要尽可能的让计算任务接近数据所在地;

2、磁盘

spark虽然是内存计算,但当数据在内存中无法容下或数据需要持久化时,还是需要数据写入本地磁盘,所以磁盘的配置也是很重要的;官方建议,每个节点挂载4-8个磁盘,并且磁盘设置noatime;

3、内存

官方建议每个work配置8g内存,配置太多的内存,JVM的full gc时间会越长,stop the world时间越长;如果机器的配置比较高端,比如内存256g,在其他因素(cpu等)允许的情况下,可以考虑在一个节点上跑多个work进程

4、网络

网络越快越好

5、CPU核数

spark官方建议,每一个节点至少有8-16 cores,当数据已经在内存中后,影响计算性能的因素就剩下网络和cpu了

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/38763.html

相关文章

  • TiSpark (Beta) 用户指南

    摘要:是推出的为了解决用户复杂需求的产品。除此之外,用户借助项目可以在上使用生态圈提供的多种工具进行数据处理。二环境准备现有版本支持,对于及还没有经过良好的测试验证。推荐每台计算节点配备累计到核以上。请注意目前仅支持版本。 TiSpark 是 PingCAP 推出的为了解决用户复杂 OLAP 需求的产品。借助 Spark 平台本身的优势,同时融合 TiKV 分布式集群的优势,和 TiDB ...

    warnerwu 评论0 收藏0
  • 大数据学习路线

    摘要:学习资料大数据最权威和最全面的学习资料就是官方文档。热门的大数据框架社区都比较活跃版本更新迭代也比较快,所以其出版物都明显滞后于其实际版本,基于这个原因采用书本学习不是一个最好的方案。 一、大数据处理流程 showImg(https://segmentfault.com/img/remote/1460000019667336?w=740&h=417);上图是一个简化的大数据处理流程图,...

    widuu 评论0 收藏0
  • 阿里,B站小伙伴奉献的中高级大数据运维学习课程与规划,高薪原来需要掌握这些

    摘要:大数据运维更偏向于大数据生态的大数据应用运维。后面我们会上大数据开发课程,其实大数据开发和大数据运维课程很多跟运维课程是重叠的,只是掌握的着重点不同。因材施教,重点会针对每个小伙伴的情况,基本水平,确立职业规划,基于职业规划定制学习计划。 一.大数据运维相关答疑与概述 1.0 课程与老师介绍...

    renweihub 评论0 收藏0
  • 跟上大数据的步伐:快速搭建Spark集群

    摘要:本文详细介绍了基于进行集群资源调度的数人云,如何部署集群。数人云集群正是通过进行集群资源调度,因此,数人云部署集群,有着天然的优势。 Spark 是 UC Berkeley AMP lab 开源的类 Hadoop MapReduce 的通用的并行计算框架,Spark 基于 map reduce 算法实现的分布式计算,拥有 Hadoop MapReduce 所具有的优点,并且 能更好地适...

    elina 评论0 收藏0
  • 托管Hadoop集群 快速上手 UHadoop

    摘要:也可以将托管集群设置为快捷方式,通过左侧快捷方式菜单栏点击进入。框架集群中仅部署。用于做存储集群,有专属的节点机型。节点管理节点,负责协调整个集群服务。目前仅节点支持绑定。通过云主机内网进行登录。登录密码为集群创建时设置的密码。 快速上手本篇目录创建集群提交任务本文档将带领您如何创建UHadoop集群,并使用UHadoop集群完成数据处理任务。创建集群本章简单介绍了用户使用UHadoop服务...

    ernest.wang 评论0 收藏295

发表评论

0条评论

Andrman

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<