资讯专栏INFORMATION COLUMN

Hadoop之父Doug Cutting:AI将为Hadoop社群的未来带来挑战

SHERlocked93 / 711人阅读

摘要:在本次会议召开之前,君对这位之父进行了专访。不过,他也坦言,和机器学习领域无疑是未来面临的挑战之一,目前许多机器学习跟技术许多都是开放源代码技术,革命不是由单一组织推动。在今年四月底正式于纽交所上市,发行价为每股美元。

7月13日~15日,全球最较高级大数据会议Strata Data Conference在北京召开。在会议上,我们看到了一个熟悉的身影——“Hadoop之父”、Cloudera 首席架构师Doug Cutting。

在本次会议召开之前,DT 君对这位 Hadoop 之父进行了专访。在采访中,Cutting 认为 ,Hadoop 的成功证明了开源已是我们身处数字转型时代的必要条件,但也认为 AI 的发展将为 Hadoop 社群带来整合开发资源的挑战,并提醒大众在数据应用与隐私之间找到平衡点。

图丨Hadoop 之父 Doug Cutting(图片来自DeepTech驻台湾编辑詹子娴)

随着数据量愈加庞大,想要有更高效率的处理方式,就需要有新的工具出现,Hadoop 就是其中的代表。Hadoop技术不仅开启了大数据时代,更成为孕育大数据技术的摇篮,至今发展也超过十个年头。

起初,Doug Cutting 希望以开源架构开发出一套搜索技术,类似于现在的 Google Search 或是微软的 Bing,刚好 2004 年 Google Labs 发布了关于自家大数据分析、MapReduce 算法的论文。Doug Cutting 利用 Google 公开的技术扩充他已经开发出来的 Lucene 搜索技术,进而打造出了 Hadoop。

Hadoop 是基于开放源代码所建构,用于分散式处理和分析电脑丛集上的巨量资料集,也可以想成是一个能够储存并管理大量资料的云端平台。它主要有两个核心技术,分别是分布式档案系统(Hadoop Distributed File System,HDFS)以及 MapReduce 技术。

当企业储存大量的资料时,透过 HDFS 技术把大量的资料切割成小份,储存并备份在多个节点。而当企业需要进行资料分析处理时,就在先各个节点上处理这些小份的资料,之后再把这些结点算出来的片段结果传回到中央进行归纳整合,这就是 MapReduce。

 

正因为透过多节点分工来处理巨量资料,解决了档案储存的问题,同时也大幅缩短了运作时间,让 Hadoop 成了大数据的主流技术,知名大企业如Google、Facebook、沃尔玛、银联、联通、台积电等,都利用了 Hadoop 技术。

不仅如此,还成就了庞大的 Hadoop 生态圈,象是今年刚在纽交所上市的 Cloudera,就是基于 Hadoop 架构开发大数据工具最知名的公司,其他的还有 Hortonworks、New Relic 都是从新创公司走向上市,MapR 也有意申请IPO。

Doug Cutting 表示,Hadoop 的意义不在技术,更大的意义在于“数字转型”(digital transformation),从 Hadoop 的成功经历我们可以学到几件事:首先、开放源代码已经是必要的,例如在 20 年前他开发出 Hadoop 的前身— Lucene 开源代码搜寻技术时,并没有料想到 Lucene 会成功,“因为它并不是较好的技术,也不完美,但它因为是属于开放源代码,透过社群的力量,使它成为了较好的搜索技术。”对使用者来说,现在更多想要的是开放源代码的软件。

第二件事就是数字转型需要不同的运算跟储存架构。在完成 Lucene 之后几年,Cutting 就开始投入到 Hadoop 的研发之中,“你可以看到整体的应用已经兴起,它的成功在于满足了大家的需求。”在 Hadoop 之前,几乎所有的资料或应用程序都要被储存在分开的系统里,但有了 Hadoop 之后,它们可以被存在单一的系统里,在扩充性、处理运算方面有更好的成效。

在这十年间, Hadoop 被大量应用于真实的商业环境中,而且还有很多衍生的工具或专案都是围绕 Hadoop 为中心发展出来,例如可支援 SQL 语法的 Hive、专门用于 Hadoop 档案系统上的资料库系统 HBase 等,Hadoop 生态系统相当多元且十分强大,有 20~30 个开放源代码程序可以共同运用。 

而人类也从未停止对科技的追求,大数据流行了之后,人工智能成为的关键字,要发展人工智能不可缺少的一项关键就是数据,Doug Cutting 指出,Hadoop 与机器学习、AI 有高度关联性,要训练、测试、评价人工智能都需要数据,许多开发者在 Hadoop 平台上写了很多应用程序,可以利用这个平台搜集各种巨量数据,支援 AI 和机器学习的数据也是爆炸性成长,很难有一家公司可以做到提供这么大量的工具。

图丨Data Science Workbench 界面

Hadoop 也推出了一项新的 Data Science Workbench 工具,可以让客户在 Hadoop 丛集里面选取符合企业内部安全政策或偏好的工具。他也举例,Tesla 在发展自动驾驶汽车上,搜集了道路、环境、驾驶行为等诸多数据,将这些数据串流到后台资料中心就是使用 Hadoop 的技术作为支持。

 

不过,他也坦言,AI 和机器学习领域无疑是 Hadoop 未来面临的挑战之一,“目前许多机器学习跟 AI 技术许多都是开放源代码技术,革命不是由单一组织推动。”但是,从发展历程来看,现阶段 AI 和机器学习方面的社群很分散,各自发展,各立山头,所以整个社群都应该团结起来才行,让一些优质的方法走向标准化,全力进一步开发,加速其进步速度,这才会是比较好的方式。”

 

说到 Hadoop,其实还有一个 Cutting 与他小孩的小象玩具有关的故事,这位 Hadoop 之父只要有公开活动几乎都会带着那只色小象。他指出,给软件命名不是件太容易的事,要尽量找没有被使用过、没有带有意义的字,否则把它写进了程序就可能会影响编程。

 

就是因为这个原因,Doug Cutting 看到他儿子在牙牙学语时,抱着黄色小象,亲昵的叫 hadoop,他灵光一闪,就把这技术命名为 Hadoop,而且还用了黄色小象作为标示 Logo,不过,事实上的小象瘦瘦长长,不像 Logo 上呈现的那么圆胖。“我儿子现在 17 岁了,所以就把小象给我了,有活动时就带着小象出席,没活动时,小象就丢在家里放袜子的抽屉里。” Doug Cutting 大笑着说。

 

图丨Doug Cutting 手拿的黄色小象就是命名 Hadoop 的灵感来源

在 Doug Cutting 接受 DT 君专访的第二天(7月13日)正是他的生日,身为 Hadoop 之父,令人好奇如果要为 Hadoop 许下一个愿望,那会是什么?他回答的第一个答案居然是“不知道,Hadoop 已经很成功了,很难再帮他许什么愿。”但接着想了一下,他倒是说出了一个有趣的答案,就是“希望大数据的应用能在资料的生产力与隐私间找到平衡。”

 

他进一步解释,希望大家能持续找到大数据可以发挥作用的地方,但他对隐私领域特别感兴趣,“必须在大数据应用、技术开发与保护隐私之间取得平衡”。这部分是很需要思考的问题。各界在利用大数据时经常会引来争议,有时太过重视大数据,对个人隐私又会造成威胁,有时太过担心隐私保护,又会使得大数据工具无法发挥它的较大效用。而且每一个国家对隐私的道德标准跟预期都不同,所以解决方法也会不同。只能互相学习。

 

而 Doug Cutting 的身份除了是 Hadoop 之父外,也是 Cloudera 的首席架构师。Cloudera 可以说是 Hadoop 生态圈里最知名的公司,核心产品是为企业客户搭建基于 Hadoop 的大数据平台,帮助企业安装、配置、运行 Hadoop 以进行海量数据的处理、分析以及机器学习。

也因为大数据前景看好,2014 年 Cloudera 当时估值 41 亿美元时,英特尔就斥资 7.4 亿美元收购 Cloudera 约 18% 股份(在今年 1 月英特尔持有 Cloudera 22% 的股份)。Cloudera 在今年四月底正式于纽交所上市,发行价为每股 15 美元。

图丨Cloudera 上市

不过,顶着光环挂牌的 Cloudera,上市后交出的第一份财报却不如市场预期,第一财季每股亏损 5.78 美元,比分析师预期的每股亏损 2.45 美元还要多。尽管大数据的市场需求依旧很高,但为何财务表现似乎不符合这样的趋势表现?

Doug Cutting 先是表示他不是财务人员,但可以稍微解释一下,其实 Cloudera 在客户跟营收方面的成长是很稳定,令大家意外的应该是成本支出部分。企业对于大数据及机器学习的需求增温,但企业对于新科技的导入不会一步到位,而是采取渐进的方式,因此很多客户一开始都是小规模引进,但是根据 Cloudera 内部的评估可以发现,每一个客户在每一年引进或增加 Cloudera 的服务都有 40% 的成长。大数据发展很重要一点是平台会长出越来越多的应用,这就会带来更多平台的扩充需求,相信之后就能看到业绩提升。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/3913.html

相关文章

  • 云计算与Hadoop11年来相爱相杀!

    同时诞生于2006年,十年间云计算革了架构的命,那Hadoop呢?Doug Cutting,在外界看来至少有两个称谓:作为技术大牛他是Hadoop之父,作为商业领袖他是Cloudera首席架构师。近日,Doug Cutting来到北京,也因此接受了科技茱比莉的采访。过去的十年毫无疑问属于云计算和大数据。其中,Hadoop被认为是大数据领域的一个里程碑,它驱动了大数据的快速发展,还将深刻影响IoT和...

    Godtoy 评论0 收藏0
  • Hadoop之父Doug Cutting勾勒大数据平台未来

    摘要:宋体是一个批处理计算引擎,它是大数据核心的开源软件框架。宋体表示批处理有用武之地,例如你需要移动大量数据以及分析所有数据的时候,但我认为,人们真正想要的是批处理和在线计算的结合体。谷歌的系统催生了和,而直接启发了。 Apache Haddo是一个批处理计算引擎,它是大数据核心的开源软件框架。Hadoop并不适用于真正实时数据可见性所需要的在线互动式数据处理,是这样的吗?Hadoop创造者兼A...

    animabear 评论0 收藏0
  • Hadoop之父Doug Cutting

    摘要:就在此时,接受了当时搜索项目负责人的邀请,于年正式加入。不久之后,就宣布,将其旗下的搜索业务的架构迁移到上来。它的客户大多来自于传统行业,希望通过来处理之前只能被直接抛弃的大规模数据。目前,的目标是把发展成云计算领域的。 生活中,可能所有人都间接用过他的作品,他是Lucene、Nutch 、Hadoop等项目的发起人。是他,把高深莫测的搜索技术形成产品,贡献给普罗大众;还是他,打造了目前在云...

    light 评论0 收藏0
  • 十年回顾:Hadoop老矣,尚能饭否?

    摘要:在年于上公开了描述其分布式文件系统的论文,为提供了及时的帮助。至年,它逐渐成为一套完整而独立的软件,已经到工作的将这套大数据处理软件命名为。 Hadoop,十岁生日快乐!于2006年1月28日诞生的它改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用。InfoQ特别策划了系列文章,为大家梳理Hadoop这十年的变化,以及技术圈...

    gyl_coder 评论0 收藏0
  • 大数据时代 Hadoop解决数据处理三瓶颈

    摘要:同时也是给部门带来了一系列必须解决的问题。这场竞争是迫使大多数企业在海量数据分析市场有所作为最有效的方法。开源的已经在过去年之中证明了自己是市场中最成功的数据处理平台。海量数据处理的三个主要因素        越来越多的大企业的数据集以及创建需要的一切技术,包括存储、网络、分析、归档和检索等,这些被认为是海量数据。这些大量信息直接推动了存储、服务器以及安全的发展。同时也是给IT部门带来了一...

    Pandaaa 评论0 收藏0

发表评论

0条评论

SHERlocked93

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<