资讯专栏INFORMATION COLUMN

Hadoop十年 推动数据驱动型分析快速发展

Cristalven / 2314人阅读

摘要:为了纪念这些事件,大数据供应商的高管们为该分布式处理框架过去十年中在数据管理和分析处理上的影响给予了高度的赞誉。是该项技术的联合创造者,他现在是分销商的首席架构师,他表示,架构已经可以让数据驱动业务,而且这是发生在企业核心的。

Hadoop迎来了10周年的生日。关于Hadoop,有很多大事件依然历历在目:Hadoop成为Apache的子项目并获得命名,第一版Hadoop代码发布,第一批用户部署了该代码。为了纪念这些事件,大数据供应商的高管们为该分布式处理框架过去十年中在数据管理和分析处理上的影响给予了高度的赞誉。

很多人在促使Hadoop落地中扮演了重要角色。Doug Cutting是该项技术的联合创造者,他现在是Hadoop分销商Cloudera的首席架构师,他表示,Hadoop架构已经可以让数据驱动业务,而且这是发生在企业核心的。同为联合创造者的Mike Cafarella是一名计算机科学专业的教授并且是分析初创公司Lattice Data的CEO。他说在Hadoop出现之前,企业都是将海量的但确实很有价值的分析工作束之高阁,这都是由关系型数据库的处理限制所致。

Sean Suchter所在Yahoo的Web搜索技术团队于2006年成为Hadoop的第一个生产用户,Suchter现在是Hadoop性能管理初创公司Pepperdata的CEO:他说:“几乎任何一家你能找到的企业都关心数据的Hadoop之旅。”Raymie Stata十年前是Yahoo负责搜索与广告系统的首席架构师,而现在是大数据云服务提供商Altiscale的老板,他称赞Hadoop可以让程序员和分析师直接访问企业的所有数据,并绕过那些传统数据仓库环境中会让一切变得迟缓的数据上的复杂环节。

从前辈那里有保留地接受赞扬是可以理解的。在这种情况下,在那些针对Hadoop的有价值的观点仍有可取之处。

商业界走上数据驱动分析的道路是不能归功于Hadoop的;数据仓库和商业智能系统要比二十年前更能在企业中找到出路。而且自助BI工具在2000年中期出现,它们赋予了业务用户分析能力。但Hadoop架构开辟了用于分析的新的数据类型,而且在技术和经济上还更具可行性——收集,处理和使用进入企业的信息。

就拿Uber来说。该公司曾遭遇分析上的停滞危机,直到去年利用Spark处理引擎和其他技术部署了一套Hadoop数据湖才得以解决。“从前,我们在企业内部所拥有的数据集无法用于分析,而如今就可以了,” Uber的一名资深软件工程师Vinoth Chandar说。“Hadoop环境已经成为所有分析数据的真理之源,”他补充道,他还指出Uber正寻求让每项决策都可以用数据驱动。

General Electric的GE Power Services部门是另一家正在使用基于Hadoop架构的组织,该架构由自助BI软件进行前端收费,他们由此创造了一个更为数据驱动化的文化。首席企业架构师Don Perigo说GE Power Services从四年前的120名员工使用传统BI和报告系统发展到拥有22000名用户的大数据平台。高管们设立了一个目标,就是让使用率达到业务部门的50%,而在某些部门,采用率达到了98%,Perigo说。

德克萨斯州大学MD安德森癌症中心预想同样的事情会在这里发生。“目前,大量数据还处于沉睡状态,无法获取和使用”, 学会分析与信息部的主任Bryan Lari说,“我们的目标是让每一个人,从高管到管理员都使用数据来驱动决策。”

Hadoop 10年的里程碑已悄然来临。Spark正在将很多Hadoop架构中的MapReduce引擎推向一边,还有用可能的数据存储替代品来替代Hadoop Distributed File System——该框架的其他原始核心组件正如雨后春笋一般涌现出来。

Hadoop可能会演变成一组不同的组件,亦或是会慢慢淡出,其他成熟的大数据工具会替代它现有的位置。但即使后一种情况发生了,Hadoop产生的影响将会远远超过Cutting在十年前以其儿子的玩具象命名的时候对它的预期。而且它所培养的数据驱动环境会保留下来,这还是值得庆贺的。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/3922.html

相关文章

  • 一篇文看懂Hadoop:风雨十年,未来何去何从

    摘要:机器学习的开源项目除了之前的等,今年发生了很多令人瞩目的大事,迎来了数个明星巨头的重磅加入年月,开源前沿深度学习工具。由一个服务于分布式机器学习的框架和一组分布式机器学习算法组成,可将机器学习算法应用到大数据中。 本文分为技术篇、产业篇、应用篇、展望篇四部分技术篇2006年项目成立的一开始,Hadoop这个单词只代表了两个组件——HDFS和MapReduce。到现在的10个年头,这个单词代表...

    Hanks10100 评论0 收藏0
  • 十年回顾:Hadoop老矣,尚能饭否?

    摘要:在年于上公开了描述其分布式文件系统的论文,为提供了及时的帮助。至年,它逐渐成为一套完整而独立的软件,已经到工作的将这套大数据处理软件命名为。 Hadoop,十岁生日快乐!于2006年1月28日诞生的它改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用。InfoQ特别策划了系列文章,为大家梳理Hadoop这十年的变化,以及技术圈...

    gyl_coder 评论0 收藏0
  • 数据在人力资源管理当中的应用

    摘要:对数字的利用在推动人类文明进步的时候都发挥了重大作用例如美国制宪会议。在随后的几十年内,摩尔定律被无数次的被印证。 大数据时代 数字与人类文明 数字是人类发明的最重要的概念之一,与整个人类文明进程相伴相生 早在8000年前美苏尔地区商人利用泥球计算商品销量 showImg(http://upload-images.jianshu.io/upload_images/1382...

    dance 评论0 收藏0
  • 云计算与Hadoop11年来相爱相杀!

    同时诞生于2006年,十年间云计算革了架构的命,那Hadoop呢?Doug Cutting,在外界看来至少有两个称谓:作为技术大牛他是Hadoop之父,作为商业领袖他是Cloudera首席架构师。近日,Doug Cutting来到北京,也因此接受了科技茱比莉的采访。过去的十年毫无疑问属于云计算和大数据。其中,Hadoop被认为是大数据领域的一个里程碑,它驱动了大数据的快速发展,还将深刻影响IoT和...

    Godtoy 评论0 收藏0
  • Hadoop目前使用情况的调查和采访

    摘要:大部分情况下,并不会替代已有的数据处理系统,而是作为已有产品的补充。机器数据,能够用来分析机器的使用情况的调查对象已经这样做了,同时还有正计划这样做。在这一方面,是到目前为止查询领域的一个占主导地位的工具。 本文原作者: Boris Lublinsky 我们正生活在大数据的时代。在当今这个技术驱动的世界,计算能力、电子设备和Internet的可...

    fyber 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<