资讯专栏INFORMATION COLUMN

集群调度架构的变革 (一)

hidogs / 2234人阅读

摘要:原文集群调度器是现代基础设施很重要的组件,尤其在最近几年有很大发展。箭头表示调度器做的决策,三种颜色代表不同类型的负载例如,服务,批量分析,机器学习。举个例子,可以看看和调度器,使用了机器学习的方式来避免在资源上相互冲突的负载调度。

原文: http://www.firmament.io/blog/...

集群调度器是现代基础设施很重要的组件,尤其在最近几年有很大发展。架构从单体应用的设计进化成更灵活,分散的,分布式的设计。但是,目前很多开源能提供的还是单体应用或缺了关键特性。这些特性对于真实世界的用户很重要,因为他们需要很高的使用率。

这是我们发布的第一篇关于在大集群上进行任务调度的系列文章,那些在亚马逊,谷歌,facebook,微软或雅虎实际在使用的。调度是一个重要的话题,因为它直接影响操作集群的成本:一个差调度器会导致极低的使用率,让昂贵的机器空闲,导致浪费钱。高使用率,对于集群自己并不容易:除非仔细的决策,负载之间会互相影响。

架构进化

这篇文章主要讨论调度架构在近些年是如何进化的,以及这为什么发生。图一将这些不同的方式可视化:灰色的方块代表一个机器,圆圈代表一个任务,一个里面标着S的团员性代表一个调度器。箭头表示调度器做的决策,三种颜色代表不同类型的负载(例如,web服务,批量分析,机器学习)。

许多集群调度器 - 例如高性能计算(HPC)调度器,Borg调度器,早期Hadoop调度器和Kubernetes调度器 - 都是单体的。一个单例的调度进程泡在一个机器上(例如,Hadoop第一版的JobTracker,Kubernetes的kube-scheduler)并且给机器调度任务。所有的负载被同一个调度器来处理,所有的任务跑着相同的调度逻辑(图1a)。这样简单并统一,却导致了越来越复杂的调度器。举个例子,可以看看Paragon和Quasar调度器,使用了机器学习的方式来避免在资源上相互冲突的负载调度。

在今天很多集群运行很多不同类型的应用(在早期只有Hadoop MapReduce任务在运行)。因此维护单个的调度器实现处理混合型的负载很需要技巧,原因如下:

很明显我们期望一个调度器按不同的方式来处理长周期服务型任务和批量分析型任务。

不同的应用有不同的需求,要支持他们所有的需求需要给调度器添加许多特性,增加了逻辑和实现的复杂性。

调度器处理任务的顺序成了问题:队列效应(队列头部阻塞 head-of-line blocking)与积压问题需要小心地设计调度器。

综上所述,这听起来是一个工程上的噩梦 - 调度器的开发者会收到无穷无尽的特性需求。


本文来自微信公众号「麦芽面包,id「darkjune_think」
转载请注明。微信扫一扫关注公众号。
交流Email: zhukunrong@yeah.net

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/10382.html

相关文章

  • [译]集群调度架构变革 (四)

    摘要:每一个混合调度器的行为都与以上架构描述的部分相同。在实际的实践中,目前据我所知还没有混合调度器在生产环境中部署。图展示了开源编排框架的概要,他们的调度器的架构和支持的特性。有关阿里软负载的问题欢迎与我交流。 原文地址:http://www.firmament.io/blog/... 混合架构 是最近出现的致力于通过组合单体或共享态的设计来解决全分布架构的缺点。一般这样做是ok的 -...

    mj 评论0 收藏0
  • [译]集群调度架构变革 (三)

    摘要:最近的分布式调度器运动应该是起始于,虽然底层的概念多样随机性选择第一次出现实在年。分布式调度器很难进行一个全局调度如公平策略或严格的优先级控制,因为没有中央控制。 全分布式架构 将分化做的更彻底,调度器间没有任何协调,并且使用许多独立的调度器来处理进入的负载,就像图 1d里面展示的。每个调度器只与他们的本地数据,通常是集群的过期数据工作。任务可以提交给任何调度器,每个调度器又会将任...

    yeooo 评论0 收藏0
  • 集群调度架构变革 (二)

    摘要:图展示了基本思想负责负载的调度器与资源管理器进行交互,资源管理器为集群资源的每个负载刻画出动态分区。应用级调度关心下游资源的许多不同方面,但他们只有资源管理器的提供请求接口。 二级调度架构 通过隔离资源获取与任务来解决这个问题。这样任务调度逻辑可以针对特定的应用,这也可以保持在集群间共享的能力。Mesos的集群管理在这方面是先驱, 同时YARN支持一部分功能。在Mesos,资源是应用级...

    邹强 评论0 收藏0
  • TOP100summit:【分享实录】链家网大数据平台体系构建历程

    摘要:本篇文章内容来自年链家网大数据部资深研发架构师李小龙的案例分享。编辑李小龙链家网大数据部资深研发架构师,负责大数据工具平台化相关的工作。导读链家网大数据部门负责收集加工公司各产品线的数据,并为链家集团各业务部门提供数据支撑。 本篇文章内容来自2016年TOP100summit 链家网大数据部资深研发架构师李小龙的案例分享。编辑:Cynthia 李小龙:链家网大数据部资深研发架构师,负责...

    Yu_Huang 评论0 收藏0
  • Kubernetes在上汽集团云平台及AI方面应用

    摘要:截至目前,已服务了上汽集团集团本部上汽乘用车上汽大通吉安物流赛客出行等余家汽车企业。经过这一两年的尝试及探索,上汽集团帆一尚行正式将列为产品线的重要产品,用以支撑整个容器平台的运行。最终在平台应用的层面,上汽集团也选择了进行应用于落地。 帆一尚行成立于2015年,是上汽集团的全资子公司,建设有上海、南京、郑州(在建)三个数据中心,拥有超过4000台物理服务器,10PB的数据存储,总面积...

    jayce 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<