资讯专栏INFORMATION COLUMN

行业厂商推出管理Hadoop集群新的可视化工具

cfanr / 1799人阅读

摘要:用于管理大数据系统的新工具以不同的方式寻求解决这一问题。施泰因巴赫表示,公司日前推出了版本许可证的开源项目,并提供了大象博士代码。的可视化管理指标新的仪表盘和可视化数据也被添加到,这是公司开发的一个开源的管理工具。

Hadoop生态系统组成部分的广度是其优势之一,但这也是一个弱点:行业开发商可以找到一个流媒体框架,适合几乎任何大数据用柱状数据存储或其他类型的架构模块,而如何将这些碎片组合在一起,对于应用程序来说是具有挑战性的。

用于管理Hadoop大数据系统的新工具以不同的方式寻求解决这一问题。其中包括来自BlueData软件的Hadoop部署自动化工具,来自LinkedIn公司的开放源代码软件,以及Hortonworks的ApacheAmbari诊断增强工具,这些软件和工具可以获得更好的可视化操作,并帮助Hadoop集群健康发展。

当Hadoop的系统投入生产使用,可以得到更好的管理工具的需求是最迫切的。这通常意味着一次性的Hadoop工作转移到集中集群运行与其他部门一起工作,通常将各种各样的Hadoop组件放在一个单一的系统。设置不同的配置,并在处理作业中分配优先级,而这个工作是艰巨的。

BlueData公司发言人表示,启动BlueData正在寻求应对EPIC软件平台的挑战,简称弹性私人即时集群。该软件支持ApacheSpark处理引擎,以及来自Cloudera和Hortonworks的Hadoop分布。此外,BlueData平台使用Docker容器技术,其封装的应用及其配套软件作为一个独立的单元,对Hadoop的部署提供多租户的方式。

BlueData的诞生

BlueData继续关注用户的痛点,今年3月为多租户部署推出了一个支持Hadoop的工作的基于服务质量优先级分配政策,并提高了处理和增加配额的执法能力。

“Hadoop的配置是一种痛苦,我必须为陪审团提供一个陪审员。”佐治亚大学计算机科学助理教授奎因说。奎因和参与自己的研究项目的一部分学生需要创建Hadoop环境。作为首席研究员,他的工作涉及使用Hadoop来支持计算机视觉和模式识别,可以整合各种数据类型,包括推特(Twitter)数据的大规模研究。

奎因使用BlueData的EPIC平台证明了一个概念项目,取得了一部分的良好效果的。“现在我们可以细分出就业机会,他们都有自己的虚拟池,在这里我们可以设置优先级。”他说。

他认为使用容器的一个好处是,他们提供了一个更轻的软件堆栈。奎因能够与BlueData的工具运行自己的自定义容器。虽然这种工作仍然需要精通技术,他说,他看到BlueData工作可以缓解开发技能的要求。

对于奎因来说,从POC到生产要解决成本的问题。他判断BlueData的经济学有利于在亚马逊网络服务(AWS)云建立,但表示,他仍然需要吸引其他研究人员分担投产的成本。(EPICBlueData企业的定价为每个物理核心处理器的成本为500美元,但有批量折扣。)

亚马逊公司的Hadoop的平台在延时系统与运行弹性MapReduce方面,可以其弹性计算云相媲美。奎因说,“在一般情况下,与AWS平台相比,其速度比AWS更快。”

采用Hadoop与以往的技术相比,从开发到经营管理的飞跃是痛苦的。一个问题是调整工作,确保他们不互相争夺Hadoop集群资源。

LinkedIn公司的数据科学家和工程师经常会发现自己辛辛苦苦跟踪性能问题时,他们的工作已经写入开始在生产中定期运行,LinkedIn公司的Hadoop开发团队的技术主管,资深软件工程师卡尔·施泰因巴赫表示,让工作有效运行是一项艰巨的任务,因为Hadoop的许多组件,认为ApachePig,HBase,Spark,MapReduce等许多组件可以结合起来,对这些一大堆的虚拟表盘和旋钮,需要正确设置。

“Hadoop是强大的,但是从用户的角度来看它是混乱的。”施泰因巴赫说。“如果你喜欢按钮,它会给你想要的更多的按钮。”

一段时间以来,LinkedIn公司已经分析了Hadoop的处理流程,并建议他们的开发人员如何改进。而随着Hadoop在更多的应用中运行,这变得更加困难。因此,LinkedIn公司已经创建了自动化的工艺性能监控和调节工具。作为对Hadoop的吉祥物,其监控软件被称为大象博士。

一个Hadoop集群的视图

对Hadoop的部署较佳做法进行“训练”,通过大象博士观察处理活动,并在数据中心就如何调整自己的Hadoop工作,这需要数据科学家和其他人的意见。

“它的工作方式非常接近类比医学。”施泰因巴赫说,“如果你去做检查,发现你的血压很高,医生就会告诉你需要减少盐分,并坚持吃药。

大象博士具备同样的功能,他说,工作在集群上运行,创建日志和指标。该软件从Hadoop集群的YARN资源管理器检索这些数据并运行,它决定了工作的执行。Hadoop作业所有者可以通过一个可视化仪表板看到由此产生的可用信息。

施泰因巴赫表示,LinkedIn公司日前推出了Apache2.0版本许可证的开源项目,并提供了大象博士代码。预计在未来的版本中,将更好地整合Spark和资源使用的可视化,以及对算法的更新。

Hadoop的可视化管理指标

新的仪表盘和可视化数据也被添加到Ambari,这是Hortonworks公司开发的一个开源的Hadoop管理工具。而推出的Ambari2.2.2版本将包括预建的仪表盘,可以让Hadoop的系统管理员对使用的跨集群资源和集群整体健康指标实现可视化。

Hortonworks公司产品和联盟营销副总裁马修·摩根表示,通过仪表板提供的信息可以显著扩大监测能力,以及通过Ambari管理大型集群的能力。

Hortonworks也正在整合分别提供了数据管理和安全管理能力的Atlas和Ranger的开源技术,。该联动目前作为技术预览,让通过应用Atlas元数据标签的IT团队对数据进行分类,然后用Ranger执行基于标签的数据访问策略。

Hortonworks,LinkedIn和BlueData并不孤单,而通过技术人员的努力将为大数据管理员带来更清晰的Hadoop集群视图。Hortonworks公司的竞争对手Cloudera已经推出了ClouderaManager的更新版本,旨在更加深入地了解Hadoop的工作负荷活动,并启动Pepperdata创造了一个支持自动调整工作负载的Hadoop集群管理器。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/3899.html

相关文章

  • 顶级Hadoop发行版的四个对比因素

    摘要:顶端的发行版的企业级功能三个独立的供应商的开发方法有一些明显的差异。成员声称,这将提高互操作性,并减少供应商的锁定。 通过检查较高级的Hadoop发行版的关键特征,你可以决定哪些订阅适合你的组织。虽然软件组件构成的Hadoop生态系统堆栈是开源技术,但是采用付费订阅使用其供应商的商业Hadoop平台会为企业带来许多好处。例如,订阅可以提供技术支持和培训,以及访问那些不提供给开源社区的企业功能...

    NeverSayNever 评论0 收藏0
  • 顶级Hadoop发行版的四个对比因素

    摘要:顶端的发行版的企业级功能三个独立的供应商的开发方法有一些明显的差异。成员声称,这将提高互操作性,并减少供应商的锁定。 通过检查较高级的Hadoop发行版的关键特征,你可以决定哪些订阅适合你的组织。虽然软件组件构成的Hadoop生态系统堆栈是开源技术,但是采用付费订阅使用其供应商的商业Hadoop平台会为企业带来许多好处。例如,订阅可以提供技术支持和培训,以及访问那些不提供给开源社区的企业功能...

    felix0913 评论0 收藏0
  • 一篇文看懂Hadoop:风雨十年,未来何去何从

    摘要:机器学习的开源项目除了之前的等,今年发生了很多令人瞩目的大事,迎来了数个明星巨头的重磅加入年月,开源前沿深度学习工具。由一个服务于分布式机器学习的框架和一组分布式机器学习算法组成,可将机器学习算法应用到大数据中。 本文分为技术篇、产业篇、应用篇、展望篇四部分技术篇2006年项目成立的一开始,Hadoop这个单词只代表了两个组件——HDFS和MapReduce。到现在的10个年头,这个单词代表...

    Hanks10100 评论0 收藏0
  • Hadoop:从初出茅庐的小象变身行业巨人

    摘要:初出茅庐的小象变身行业巨人由于具备低成本和前所未有的高扩展性,已被公认为是新一代的大数据处理平台。如今已从初出茅庐的小象变成了行业的巨人,但仍需继续完善。而的将在在年推出,届时其还会与微软现有的工具联合处理任务。初出茅庐的小象变身行业巨人       由于具备低成本和前所未有的高扩展性,Hadoop已被公认为是新一代的大数据处理平台。就像30年前SQL(Structured Query L...

    wing324 评论0 收藏0
  • 360度透视Hadoop,大数据技术、案例及相关应用

    摘要:来自社区的大数据宣言为公司提供有效的业务分析工具和技术是首席信息官的首要任务。我们称这些为大数据。大数据性质的变化移动设备和其他技术的出现导致数据性质的根本性变化。因此,需要处理和分析大数据的新方法。 来自Wikibon社区的大数据宣言为公司提供有效的业务分析工具和技术是首席信息官的首要任务。有效的业务分析(从基本报告到高级的数据挖掘和预测分析)使得数据分析人员和业务人员都可以从数据中获得见...

    rottengeek 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<