资讯专栏INFORMATION COLUMN

想要从大数据中获益?请先做好Hadoop管理

Bmob / 2710人阅读

摘要:公司的团队在对数据湖泊进行性能管理时,考虑的十分周全。和其他演讲者认为,对于那些试图从大数据中获益的企业来说,有效的管理是必须的。为了在监测数据上完成更高级的聚合,该公司还建立了一个本地管理控制台,称为。

Hadoop管理正在成为大数据用户和供应商首先考虑的分部署处理框架,它在企业的业务运营中中扮演着越来越重要角色。

Comcast公司的IT团队在对Hadoop数据湖泊进行性能管理时,考虑的十分周全。

数据湖泊是一个大量信息的集合体,此外还包括成千上万的CPU和超过30 pb级的存储容量。为了保证其平稳运行,IT团队实现了主动Hadoop监测和数据治理过程,此外还包括一系列集群管理工具。

“为确保Comcast"的Hadoop用户可以正常的运行应用程序,我们开始使用数据治理功能,”Michael Fagan说道,他是位于Philadelphia的电视电影集团的首席大数据架构师。管理工作主要包括服务协议,用于限制业务单元的Hadoop资源利用率,此外还包括自动化的执行机制和月度审核机制,用来评估Hadoop的性

对Hadoop集群使用和数据存储的管理是一个很热门的话题,在San Jose, Calif举办的Hadoop 2016峰会上,这个话题被广泛讨论。Fagan 和其他演讲者认为,对于那些试图从大数据中获益的企业来说,有效的Hadoop管理是必须的。一些供应商正在开发新技术,旨在实现集群监控、管理和治理任务的自动化。

举例来说,会议的组织者Hortonworks发布了一个Hadoop的预览版,它集成了Atlas 和Ranger。Apache开源技术可用于给数据配置元数据,加强用户访问权限控制。Hortonworks数据平台(HDP)2.5版本,将于本月晚些时候发布,它增加了系统日志的搜索功能,通过使用Apache Ambari(一个开源的Hadoop管理工具),提供了基于角色的访问控制功能。

Hortonworks的竞争对手MapR Technologies推出了Spyglass Initiative项目的第一个组件——Spyglass Initiative项目旨在创建可定制的仪表板,监控大数据平台。此外,MapR还将发布更新各种开源工具,作为其平台季度更新“包”的一部分,以简化部署流程;第一个MapR Ecosystem Pack 和MapR Monitoring仪表板都将在本月发布。与此同时,数据集成和分析软件供应商Pentaho发布了连接到Hadoop数据湖泊的基础设施参考蓝图。

Hadoop管理的多个方面

Comcast 在它的数据湖泊上运行HDP和Cloudera的Hadoop分布平台——在集群管理方面,它使用了集成Ambari的Hortonworks,Cloudera Manager,以及Pepperdata提供的Hadoop性能管理软件。为了在Hadoop监测数据上完成更高级的聚合,该公司还建立了一个本地管理控制台,称为Comcast Command Center。

“虽然我们可以从不同的工具中得到很多答案,但我们很难得到一致的答案,”Ray Harrison,Comcast Hadoop平台团队的一员说道。

数据湖泊是一个多租户的数据环境,各种用户“聚集到一起,在同一个一沙盒里操作数据,”Harrison说。但是这种方法给性能管理带来了一定的挑战。Hadoop团队今年部署500个节点的集群,为公司数据科学家的高级分析应用程序服务,但这是必须的,因为这些科学家正在大型数据集努力寻找“未知的未知”,这需要强大的计算能力,现有的资源难以应付,Harrison说道。

为了跟上集群变化的节奏,Comcast 特意更新了其资源使用的治理策略,“且在过去的一年内更新了数次,”Fagan说到。下一步是数据治理:Hadoop团队开始推进数据治理项目,依靠Atlas技术来确保每个用户所使用信息的一致性。

治理为要,科技次之

数据治理是Blue Cross Blue Shield of Michigan的首要任务,该大数据平台将于五月上线。在会议的另一次会谈中,Detroit一家公司的分析主管,数据工程师和数据管理者Beata Puncevic说道,她的团队在2015年4月,项目初期就首先开始着手制定新的数据治理流程和策略,而真正开始实施技术细节已经是五个月之后的事了。

“如果你在部署大数据工具之前,没有制定一个强有力的数据治理过程,你很有可能会步履维艰”Puncevic说道。数据治理涉及如下步骤,根据常见数据定义,创建业务术语表,制定数据使用的新规则,解决数据质量和元数据管理的问题。“上面说的这些都很无聊”她开玩笑道。“我们一开始做的这些工作与具体技术无关。”

原始数据被输入到Hortonworks-based Hadoop集群,然后根据数据治理机制进行精炼,以供分析。该系统最初被用来支持的分析应用程序包括用药和临床病例记录系统,Puncevic补充说,这可能需要额外三到五年才能完全建立起大数据架构。

Hadoop监测和治理在University of Texas MD Anderson Cancer Center的大数据待办事项上优先级很高 ,他们在3月份将一个运行HDP的Hadoop集群投入了生产环境。这家位于Houston的癌症治疗和研究机构使用集群存储一些重要的统计数据,这些数据收集于病人的床边传感器;大数据平台的其他用途还包括对不同实验室数据系统的集成,这些实验室在以前是完全独立的,没有任何联系。

传统的IT管理,治理和安全实践仍然适用于大数据环境,Vamshi Punugoti,MD Anderson负责信息系统研究的副主任表示。

“从我们的角度来看,没理由做例外的事,”他说,我们虽然刚刚开始大数据的旅程,但这并不意味着我们能以随意的方式去做。”

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/3923.html

相关文章

  • 2014的12个大数据趋势:Hadoop继续升温,R将进入主流

    摘要:越来越多的企业拥抱大数据技术,并将其运用到生产环境中。将成为企业的关键组件将普及,大数据也不会再继续止步于云服务。认为,年,的适用场景将超越批处理和存储,将成为企业数据架构中通用的核心组件,这意味着数据分析将继续成为大数据的首要用例。 当下,大数据已成为2013年最火的技术词汇之一;而在过去一年,这个市场的增速和改变也不可谓不大。同时,我们还看到了Hadoop及其生态 系统的使用门槛从顶尖技...

    pingink 评论0 收藏0
  • 数据心能源效率90%,谷歌、浪潮都在布局的开放计算是什么?

    摘要:浪潮是唯一一家同时加入服务器供应商,产品可覆盖制定的服务器标准,正在将中国的开放计算理念带向世界。作为行走在国际舞台上的服务器厂商,浪潮的开放计算之路仍待开拓。陈彦灵表示,浪潮在技术和业务层面都有很大的潜力。金字塔顶端的巨型企业往往先看到未来。6年前,当我们还不知道开放计算是什么的时候,一些精英巨头已经开始排兵布阵了。开放计算项目的初始需要追溯到2011年——Facebook正式推出全球第一...

    noONE 评论0 收藏0
  • Facebook解决Hadoop阿喀琉斯之踵

    摘要:的工程师在上对此问题表达了自己的看法。在当前大规模数据分析日益流行之际,的单节点故障成为众矢之的。预计如果解决这一缺陷将会使数据仓库的停机时间减少一半。同时提供了开源,以提供管理员在实际工作中获益。 Hadoop大潮正在逐渐席卷所有美国的垂直行业,包括金融、传媒、零售、能源、以及制药等。Hadoop在树立大数据概念的同时,还对海量数据进行实时分析,并从分析得出的数据发现趋势,以提高企业赢...

    MiracleWong 评论0 收藏0
  • Google打造云Hadoop便捷版,强势对抗AWS

    摘要:打造云中便捷版,强势对抗上周,为其增加了连接器,这样开发人员现在已经能够很轻松的在计算虚拟机上进行操作了,的预览版将使开发人员不用再花大力气去管理集群和文件系统。在此领域,和的竞争将更加激烈。但他同时表示这可能有问题。 1. Google打造云中Hadoop便捷版,强势对抗AWS上周,Google为其Google Cloud Platform增加了Hadoop 连接器,这样开发人员现在已经能...

    Rindia 评论0 收藏0
  • 集成GemFire,Hadoop生态圈的又一把火

    摘要:在一个完美的大数据环境下,及时向用户道歉也能给客户留下很好的影响。受益于的更新,现在将支持和快照处理,这意味着企业客户在出现问题时可以回滚。比如查询工具来自于年对的收购来自于同年对的收购。   【编者按】Pivotal公司由EMC和Vmware部分业务分拆合并而成,Pivotal通过不断吸收新技术并将新技术融合到自己的产品中而成长壮大,现在Pivotal还很好地利用开源力量完善自身的产品,P...

    xzavier 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<