资讯专栏INFORMATION COLUMN

Hadoop 2.0带来的大数据技术需求

paulli3 / 1553人阅读

摘要:的数据调查显示,到年,组织只能拥有需要的大数据人才的三分之一。一些非技术人员也参与到大数据技术中来,虽然人数少,但却有逐渐增长的趋势。不过组织与供应商的合作可以这样展开要想实现大数据,需要很多开源项目。

Apache软件基金会最近发布了Hadoop 2,这个版本的开源平台具有高扩展性和分布式计算等特点。Hadoop 2包含了一些新功能,比如重新设计的资源管理器YARN。Apache宣称YARN是一款能够同时运行多个大数据应用的高扩展分布处理系统。

但Hadoop 2也让一直困扰大数据公司的一个问题重新引起关注:大数据人才的供不应求。

Modus Operandi是一家运行Hadoop的小公司,它为政府机构提供数据管理和分析技术,包括美国海军和美国陆战队等。Modus Operandi公司的副总裁兼首席科学家Eric Little博士认为,“技术人才很稀缺”。公司在和大的软件供应商和拥有更多资源的用户组织争夺技术人才。

Little表示:“即便是大公司,也找不到技术人才。难道让我们和IBM、苹果、谷歌、亚马逊、雅虎这些巨头去竞争吗?”

要解决这一问题也不是没有办法。比如,公司可以重金聘请Hadoop专家。不过很多公司心有余而力不足。

或者,企业可以在内部培养大数据人才。在Little的公司,高级工程师花费大量的时间培训新人,这样就有一批稳定的员工熟知大数据分析技术。同时,一些 大的项目,他们可以委托给Cloudera, Hortonworks和MapR等Hadoop供应商。Gartner的数据调查显示,到2016年,组织只能拥有需要的大数据人才的三分之一。

不过Gartner的分析师Merv Adrian也表示:“实际上,这些技术人才都会流向排名前1000的企业和大的系统集成商。他们会倾向于软件企业。剩下的就要小公司去抢了。”

 

稀缺的技术人才

很多组织早就开始在内部寻求Hadoop或其他大数据部署的人才,其中不只有IT工作者。一些非技术人员也参与到大数据技术中来,虽然人数少,但却有逐渐增长的趋势。他们成为了Hadoop的先锋。

Adrian认为,“他们往往被忽视了。他们自己搭建想要的东西,在亚马逊上使用,或者下载免费的分布。在很多公司,他们都是内部招聘的。识别可用的技能也是一个有趣的机会啊!”

Modus Operandi推荐每一个对Hadoop感兴趣的人都参加供应商举办的培训课程,比如Cloudera。这样才能缓解技术人才稀缺的困境。

Little认为,在招募和培训新人的时候,需要思路开阔。比如一个有数学背景的人就比一个计算机背景的人更有发展。

“因为Hadoop需要很强的数学能力。经验告诉我,只有精通算法的人才能胜任这项工作,这也就要求他们具备很强的数学能力。”

启用或实验Hadoop 2.0的公司都希望能够了解开源工程的生态系统。比如Hive, Pig, Mahout, ZooKeeper, Flume和Sqoop。

Adrian表示:“最近比较火的一个项目是Ambari,是一个Hadoop的管理环境。要想应用Hadoop,必须了解Ambari。”

部署Hadoop

虽然组织在启动Hadoop项目的时候都希望有供应商的支持,但组织完全可以独立完成部署。

Adrian表示:“很多早期的用户采用的都是纯净版的Apache,并一直在运行。通常,高管们都不愿意去护理、保养、升级、维护、集成测试、回归测试和移植。”

组织应该与主流Hadoop分布供应商紧密合作,比如Cloudera, MapR或者Hortonworks。其他的供应商,像因特尔和EMC也都在今年年初开始了分布产品的供应和支持。

不过组织与供应商的合作可以这样展开:要想实现大数据,需要很多开源项目。除了YARN,Hadoop 2主要的组成部分还包括Hadoop分布式文件系统(HDFS)和MapReduce。其他开源工程有自己的管理和运行速度。分销商需要事先集成开源系 统,然后向用户提供开发环境和运营指标。

 

Hadoop 2的新功能

组织除了应对大数据技术人才稀缺的难题之外,还应该了解一下Hadoop 2.0的新功能。

数据管理软件公司RedPoint Global的联合创始人和首席技术官George Corugedo认为,Hadoop 2中新增的YARN功能很重要,因为有了它用户可以更容易地在不同程序之间创建和分享功能。YARN是Yet Another Resource Negotiator(另一种资源协调者)的简称,也被称为MapReduce 2.0,因为它作为Hadoop 2的资源管理工具,已经替代了之前的MapReduce。

Hadoop 2还为HDFS提供了高可用性和联合功能。支持微软桌面,还具有对存储在HDFS中的数据的快照功能。

Corugedo认为,开始应用这些技术的组织应该既有全局眼光,有能把握细节。“其实Hadoop和其他新技术一样,信誉和技术是最重要的,千万不要落入炒作的陷阱。”

 

 

 

 

本文原作者:Mark Brunelli
本文转载自:http://www.searchbi.com.cn/showcontent_79116.htm

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/3866.html

相关文章

  • 集成GemFire,Hadoop生态圈的又一把火

    摘要:在一个完美的大数据环境下,及时向用户道歉也能给客户留下很好的影响。受益于的更新,现在将支持和快照处理,这意味着企业客户在出现问题时可以回滚。比如查询工具来自于年对的收购来自于同年对的收购。   【编者按】Pivotal公司由EMC和Vmware部分业务分拆合并而成,Pivotal通过不断吸收新技术并将新技术融合到自己的产品中而成长壮大,现在Pivotal还很好地利用开源力量完善自身的产品,P...

    xzavier 评论0 收藏0
  • 基于云计算的大数据平台基础设施建设实践

    摘要:如何在云上提供弹性敏捷,却不失稳定和高性能的大数据平台如何高效的利用云计算的特点来开发大数据平台本期中国互联网技术联盟分享活动中青云系统工程师周小四给大家带来基于云计算的大数据平台基础设施建设以及其架构特点的主题分享。 大数据平台基础建设当前的趋势是云化与开放,这个平台需要可以提供各类大数据相关 PaaS 服务,也需要使各类服务间可以简单灵活的组合来满足多变及定制的需求。如何在云上提供...

    MadPecker 评论0 收藏0
  • Google打造云中Hadoop便捷版,强势对抗AWS

    摘要:打造云中便捷版,强势对抗上周,为其增加了连接器,这样开发人员现在已经能够很轻松的在计算虚拟机上进行操作了,的预览版将使开发人员不用再花大力气去管理集群和文件系统。在此领域,和的竞争将更加激烈。但他同时表示这可能有问题。 1. Google打造云中Hadoop便捷版,强势对抗AWS上周,Google为其Google Cloud Platform增加了Hadoop 连接器,这样开发人员现在已经能...

    Rindia 评论0 收藏0
  • 学习Hadoop数据基础框架

    摘要:大快的大数据通用计算平台,已经集成相同版本号的开发框架的全部组件。,更是集成了大快的大数据一体化开发框架开发框架提供了大数据搜索自然语言处理和人工智能开发中常用的二十多个类,通过总计一百余种方法,实现了倍以上的开发效率的提升。 什么是大数据?进入本世纪以来,尤其是2010年之后,随着互联网特别是移动互联网的发展,数据的增长呈爆炸趋势,已经很难估计全世界的电子设备中存储的数据到底有多少,...

    amc 评论0 收藏0
  • 关于分布式计算的一些概念

    摘要:关于三者的一些概括总结离线分析框架,适合离线的复杂的大数据处理内存计算框架,适合在线离线快速的大数据处理流式计算框架,适合在线的实时的大数据处理我是一个以架构师为年之内目标的小小白。 整理自《架构解密从分布式到微服务》第七章——聊聊分布式计算.做了相应补充和修改。 [TOC] 前言 不管是网络、内存、还是存储的分布式,它们最终目的都是为了实现计算的分布式:数据在各个计算机节点上流动,同...

    Ververica 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<