spark集群部署-硬件配置官方建议

Andrman 发布于2019-07-25 12:14 / 2292人阅读

摘要：存储系统因为需要从外部的存储系统或文件系统读取数据例如等，所有让任务尽可能的接近数据本地，让和部署到相同的节点上数据本地性将计算任务推送到数据所在地，如果不能保证，也要尽可能的让计算任务接近数据所在地磁盘虽然是内存计算，但当数据在内存中无法

1、存储系统
因为spark job需要从外部的存储系统（或文件系统）读取数据（例如：hbase、hdfs等），所有让spark任务尽可能的接近数据本地，让spark和hadoop部署到相同的节点上；数据本地性：将计算任务推送到数据所在地，如果不能保证，也要尽可能的让计算任务接近数据所在地；

2、磁盘

spark虽然是内存计算，但当数据在内存中无法容下或数据需要持久化时，还是需要数据写入本地磁盘，所以磁盘的配置也是很重要的；官方建议，每个节点挂载4-8个磁盘，并且磁盘设置noatime；

3、内存

官方建议每个work配置8g内存，配置太多的内存，JVM的full gc时间会越长，stop the world时间越长；如果机器的配置比较高端，比如内存256g,在其他因素（cpu等）允许的情况下，可以考虑在一个节点上跑多个work进程

4、网络

网络越快越好

5、CPU核数

spark官方建议，每一个节点至少有8-16 cores，当数据已经在内存中后，影响计算性能的因素就剩下网络和cpu了

idc机房托管超融合服务器大数据平台部署建议服务器配置建议 spark集群搭建 docker spark集群

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/38763.html

TiSpark (Beta) 用户指南

摘要：是推出的为了解决用户复杂需求的产品。除此之外，用户借助项目可以在上使用生态圈提供的多种工具进行数据处理。二环境准备现有版本支持，对于及还没有经过良好的测试验证。推荐每台计算节点配备累计到核以上。请注意目前仅支持版本。 TiSpark 是 PingCAP 推出的为了解决用户复杂 OLAP 需求的产品。借助 Spark 平台本身的优势，同时融合 TiKV 分布式集群的优势，和 TiDB ...

warnerwu 2019-08-01 13:36 评论0 收藏0
大数据学习路线

摘要：学习资料大数据最权威和最全面的学习资料就是官方文档。热门的大数据框架社区都比较活跃版本更新迭代也比较快，所以其出版物都明显滞后于其实际版本，基于这个原因采用书本学习不是一个最好的方案。一、大数据处理流程 showImg(https://segmentfault.com/img/remote/1460000019667336?w=740&h=417);上图是一个简化的大数据处理流程图，...

widuu 2019-07-16 14:52 评论0 收藏0
阿里，B站小伙伴奉献的中高级大数据运维学习课程与规划，高薪原来需要掌握这些

摘要：大数据运维更偏向于大数据生态的大数据应用运维。后面我们会上大数据开发课程，其实大数据开发和大数据运维课程很多跟运维课程是重叠的，只是掌握的着重点不同。因材施教，重点会针对每个小伙伴的情况，基本水平，确立职业规划，基于职业规划定制学习计划。一.大数据运维相关答疑与概述 1.0 课程与老师介绍...

renweihub 2021-09-29 09:34 评论0 收藏0
跟上大数据的步伐：快速搭建Spark集群

摘要：本文详细介绍了基于进行集群资源调度的数人云，如何部署集群。数人云集群正是通过进行集群资源调度，因此，数人云部署集群，有着天然的优势。 Spark 是 UC Berkeley AMP lab 开源的类 Hadoop MapReduce 的通用的并行计算框架，Spark 基于 map reduce 算法实现的分布式计算，拥有 Hadoop MapReduce 所具有的优点，并且能更好地适...

elina 2019-05-28 18:29 评论0 收藏0
托管Hadoop集群快速上手 UHadoop

摘要：也可以将托管集群设置为快捷方式，通过左侧快捷方式菜单栏点击进入。框架集群中仅部署。用于做存储集群，有专属的节点机型。节点管理节点，负责协调整个集群服务。目前仅节点支持绑定。通过云主机内网进行登录。登录密码为集群创建时设置的密码。快速上手本篇目录创建集群提交任务本文档将带领您如何创建UHadoop集群，并使用UHadoop集群完成数据处理任务。创建集群本章简单介绍了用户使用UHadoop服务...

ernest.wang 2022-07-12 17:31 评论0 收藏295