资讯专栏INFORMATION COLUMN

Facebook运维内幕曝光:一人管理2万台服务器

Bryan / 1488人阅读

摘要:她介绍说,每个数据中心的运维工作人员管理了至少台服务器,其中部分员工会管理数量高达多个的系统。提到,自动化工作的目标是尽量避免将技术人员派往现场解决问题,除非必须对服务器进行现场处理。这样做的结果就是用来修理服务器的时间减少了。


Facebook 数据中心运维主管 Delfina Eberly

目前,Facebook 已经凭借它在网络基础建设上的可扩展能力成为了行业的领军者。Facebook 数据中心运维主管 Delfina Eberly(上图人物) 在“7x24 Exchange 2013 秋季会议”上的演讲中为我们透露了 Facebook 部分内部运维数据,下面我们来具体了解下。

服务器数量惊人,一人管理 2 万台:

Facebook 服务器数量惊人,其硬件方面的工作重点主要放在“可服务性”上,内容也涉及服务器的初期设计,一系列工作的目标就是为了保证数据机房的设备维修最简单、最省时。她介绍说,每个 Facebook 数据中心的运维工作人员管理了至少 20,000 台服务器,其中部分员工会管理数量高达 26,000 多个的系统。

近期 Facebook 的服务器与管理人数比又创下了新高,目前已经超过 10000:1,可以查看文章高扩展性对此进行更加详细的了解。

大数据汹涌,运维工作不轻松

在 Facebook 数据中心做运维工作并不轻松,对工作人员的能力要求很高。他们每天面对的是海量数据。

据统计,Facebook 目前拥有 11.5 亿用户,日常登录用户约 7.2 亿。每天 Facebook 用户分享的内容达到 47.5 亿条,“赞”按钮点击次数近 45 亿次。Facebook 目前存储了 2400 亿张照片,每月照片存储容量约增加 7 PB(注,单位换算:1PB=1024TB)。

自动故障诊断系统:原为留住人才

为了管理运维工作,Facebook 已经开发了相应软件来自动化处理日常运维任务,如 CYBORG 可自动检测服务器问题并进行修复。如果 CYBORG 无法自动修复检查出的问题,系统将自动给订单系统发送警告,并分派给数据中心工作人员,以对相应问题进行详细追踪与分析。

Eberly 提到,自动化工作的目标是尽量避免将技术人员派往现场解决问题,除非必须对服务器进行现场处理。强调自动化不是因为 Facebook 对打造无人数据中心感兴趣,原因在于 Facebook 重视自己的员工。

Eberly 解释说:我们要留住人才,因为大家更喜欢高水平的任务,公司希望让他们留下来与我们一起进步成长,这对 Facebook 来说至关重要。

“可服务性”主导服务器设计:节时 54%

在 Facebook,运维团队的时间与工作量是根据 Facebook 硬件设计来安排的。比方说,全部服务器从头开始就坚持“可服务性”这一原则来进行设计,那么数据中心的工作人员就没有必要老钻机房了;服务器被设计成无需工具就可以对磁盘和组件进行替换。这样做的结果就是:Facebook 用来修理服务器的时间减少了 54%。

Eberly 介绍说,Facebook 运维团队会仔细跟踪设备故障率,这一数据会为公司的采购提供参考。公司的财产管理和订单系统用序列号来跟踪硬盘和其他组件,这方便完整了解每个硬件的生命周期。

Eberly 还提到,虽然这些系统很复杂,但并不需要太多开发者。Facebook 的运维团队仅有 3 名软件工程师,但他们对数据中心的工作来讲至关重要。


最后

从 Eberly 的介绍中,我们可以看到 Facebook 在可扩展性网络建设上的实力。同时,这也为行业提供了一些可参考的经验,如:开发自动故障系统,根据“可服务性”设计基础架构。同时,运维也是一个系统工程,需要得到其他部门的配合支持才行。


原文链接:Datacenterknowledge

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/7891.html

相关文章

  • 腾讯云运维干货沙龙-海量运维实践大曝光 (三)

    摘要:月日,首期沙龙海量运维实践大曝光在腾讯大厦圆满举行。织云高效的实践是,它是以运维标准化为基石,以为核心的自动化运维平台。 作者丨周小军,腾讯SNG资深运维工程师,负责社交产品分布式存储的运维及团队管理工作。对互联网网站架构、数据中心、云计算及自动化运维等领域有深入研究和理解。 12月16日,首期沙龙海量运维实践大曝光在腾讯大厦圆满举行。沙龙出品人腾讯运维技术总监、复旦大学客座讲师、De...

    eechen 评论0 收藏0
  • 开放计算推动下的数据中心创新

    摘要:谈及浪潮积极参与各种开放计算组织的原因时陈彦灵表示。陈彦灵就表示,浪潮今天能推出众多开放计算的服务器节点,模式从中提供了很多帮助。随着云计算、大数据应用的普及,数据中心正在走向大型化,如今10万台、50万台服务器规模的数据中心越来越常见,特别是一些CSP,其数据中心大型化趋势非常明显。根据相关统计,以AWS、Google、微软为首的全球10个超大规模数据中心其服务器部署量占到了全球服务器保有...

    U2FsdGVkX1x 评论0 收藏0
  • 双11黑科技,阿里百万级务器自动化运维系统StarAgent揭秘

    摘要:年加入阿里巴巴,目前负责基础运维平台。产品数据这也是我们产品在阿里内部的一些数据,每天有上亿次的服务器操作,分钟可以操作万台服务器,插件有多个,管理服务器规模在百万级,资源占有率也特别低,支持主流发行版。 摘要: 还记得那些年我们半夜爬起来重启服务器的黑暗历史吗?双11期间,阿里巴巴百万量级主机管理能安全、稳定、高效,如丝般顺滑是如何做到的?阿里巴巴运维中台技术专家宋意,首次直播揭秘阿...

    TalkingData 评论0 收藏0
  • 3分钟学会如何调度运营海量Redis系统

    摘要:腾讯云目前分别提供主从版集群版新一代三个版本。目前腾讯云作业平台已建成数百种场景化的工作流程,日调用次数达上千次,覆盖大部分的运维场景,变更导致的事故减少,服务更为稳定可靠,场景化运维工作效率提升。 本文由云+社区发表作者:冯伟源 作者:冯伟源,高级工程师,腾讯云Redis系统运维负责人。6年DBA经验,一直从事SQL优化、实例调优、数据库架构、海量数据库集群运维、运营平台建设和管理...

    maxmin 评论0 收藏0
  • 活动实录丨SRE在传统企业中的落地实践

    摘要:坚持演习谷歌定期做的演习,如最高等级的演习是定期把数据中心强制关闭,进入维护状态。经过长期演练,谷歌内部系统的容错能力增强。 showImg(https://segmentfault.com/img/remote/1460000009390718?w=80&h=80); 王璞/数人云创始人&CEO 美国George Mason 大学计算机博士。曾先后供职于 Google、Groupon...

    沈俭 评论0 收藏0

发表评论

0条评论

Bryan

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<