资讯专栏INFORMATION COLUMN

Facebook解决Hadoop阿喀琉斯之踵

MiracleWong / 746人阅读

摘要:的工程师在上对此问题表达了自己的看法。在当前大规模数据分析日益流行之际,的单节点故障成为众矢之的。预计如果解决这一缺陷将会使数据仓库的停机时间减少一半。同时提供了开源,以提供管理员在实际工作中获益。

Hadoop大潮正在逐渐席卷所有美国的垂直行业,包括金融、传媒、零售、能源、以及制药等。Hadoop在树立大数据概念的同时,还对海量数据进行实时分析,并从分析得出的数据发现趋势,以提高企业赢利的能力。

 

Apache Hadoop作为开源数据管理软件主要用来在分布式环境中的分析大量的结构化和非结构化数据。Hadoop已被用在包括Yahoo,Facebook,LinkedIn和eBay等众多流行的网站之中。

 

Facebook的工程师相信他们运行着较大的基于Hadoop的数据收集平台。但是数据分析平台自身也存在着不可回避的弱点,目前Facebook的工程师想出方法是只用单个服务器来协调所有工作。

 

Facebook的工程师Andrew Ryan在Hadoop Summit上对此问题表达了自己的看法。Facebook目前在全球较大的HDFS(Hadoop Distributed File System)上收集数据,总共超过100PB有价值的数据分布在不同数据中心的100个集群。

 

在当前大规模数据分析日益流行之际,Hadoop的单节点故障成为众矢之的。Hadoop部署会跨越数百甚至数千台服务器,负责整个调度工作的服务器节点被称为NameNode,NameNode位于HDFS主端,NameNode负责指导从端的DataNode执行底层的I/O任务。

NameNode跟踪文件如何被分割成文件块,而这些文件块又被哪些节点存储,以及分布式文件系统的整体运行状态是否正常。但如果单一节点停止运行将会导致数据节点无法通信,实际上这也将导致整个系统停止工作。

 

Facebook预计如果解决这一缺陷将会使数据仓库的停机时间减少一半。为了解决这一顽疾,Facebook的工程师研发出被称为Avatarnode的软件,当出现故障时可切换到备份的NameNode。经过设置之后每个数据节点定期发送更新到主节点和备份节点。

 

同时Facebook提供了开源Avatarnode,以提供Hadoop管理员在实际工作中获益。Facebook已在内部运行Avatarnode,这也极大改善了HDFS集群的可靠性。目前Facebook正在努力进一步改善Avatarnode以及与高可用框架的集成,将允许实现无人值守、自动化和安全故障转移等功能。

 

当然不止Facebook在试图解决Hadoop的缺陷,MapR和Cloudera的产品也具备备用相似的能力。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/3776.html

相关文章

  • 通过一个场景实例 了解前端处理大数据的无限可能

    摘要:随着前端的飞速发展,在浏览器端完成复杂的计算,支配并处理大量数据已经屡见不鲜。作为该实例本身的数据层。后人常以阿喀琉斯之踵譬喻这样一个道理即使是再强大的英雄,他也有致命的死穴或软肋。 随着前端的飞速发展,在浏览器端完成复杂的计算,支配并处理大量数据已经屡见不鲜。那么,如何在最小化内存消耗的前提下,高效优雅地完成复杂场景的处理,越来越考验开发者功力,也直接决定了程序的性能。 本文展现了一...

    willin 评论0 收藏0
  • 漫谈前端性能 突破 React 应用瓶颈

    摘要:表示调用栈在下一将要执行的任务。两方性能解药我们一般有两种方案突破上文提到的瓶颈将耗时高成本高易阻塞的长任务切片,分成子任务,并异步执行这样一来,这些子任务会在不同的周期执行,进而主线程就可以在子任务间隙当中执行更新操作。 showImg(https://segmentfault.com/img/remote/1460000016008111); 性能一直以来是前端开发中非常重要的话题...

    whlong 评论0 收藏0
  • 漫谈前端性能 突破 React 应用瓶颈

    摘要:表示调用栈在下一将要执行的任务。两方性能解药我们一般有两种方案突破上文提到的瓶颈将耗时高成本高易阻塞的长任务切片,分成子任务,并异步执行这样一来,这些子任务会在不同的周期执行,进而主线程就可以在子任务间隙当中执行更新操作。 showImg(https://segmentfault.com/img/remote/1460000016008111); 性能一直以来是前端开发中非常重要的话题...

    godruoyi 评论0 收藏0
  • 从RNN到LSTM,性能良好的神经网络到底是如何工作的?

    摘要:摘要在年率先发布上线了机器翻译系统后,神经网络表现出的优异性能让人工智能专家趋之若鹜。目前在阿里翻译平台组担任,主持上线了阿里神经网络翻译系统,为阿里巴巴国际化战略提供丰富的语言支持。 摘要: 在2016年Google率先发布上线了机器翻译系统后,神经网络表现出的优异性能让人工智能专家趋之若鹜。本文将借助多个案例,来带领大家一同探究RNN和以LSTM为首的各类变种算法背后的工作原理。 ...

    sihai 评论0 收藏0
  • FacebookHadoop应用与故障转移方案

    摘要:当发生故障时,的两个高可用节点可手动故障转移。同时如果故障转移出现在写入的过程中,的机制将允许保证完整的数据写入。并整合与一般高可用性框架的整合,还将实现无人值守自动化与安全故障转移等特性。已将自身使用的与解决方案托管到。 在《数据大爆炸 一分钟=60秒=海量数据》一文中,我们曾提到在短短的60秒内,Facebook的用户会分享684478条信息,Like按钮被点击34772次。庞大的业务量...

    megatron 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<