资讯专栏INFORMATION COLUMN

Hadoop生态系统在壮大:十大炫酷大数据项目

lyning / 1995人阅读

摘要:在开发人员开发以克服大数据带来的挑战之后的年间,这些技术的生态系统在不断发展壮大。如今,另外许多技术也是大数据和生态系统的一员,它们大多数都归属软件基金会。软件基金会的更多大数据项目这些是软件基金会里面生态系统中一些备受关注的大数据项目。

在开发人员开发Hadoop以克服大数据带来的挑战之后的10年间,这些技术的生态系统在不断发展壮大。Apache软件基金会下面有众多的开源大数据技术项目。本文介绍一些重要项目,并顺便了解几个新兴项目。

Hadoop生态系统在壮大:十大炫酷大数据项目

管理和分析大数据已经变成了重大挑战,数量急剧增加的信息从社交媒体、连接到物联网中“物件”的传感器、结构化数据、非结构化数据以及可以收集的其他一切数据收集而来。为了应对这项任务,开发人员已开发了一系列新的开源技术。

旗舰软件Apache Hadoop是Apache软件基金会的一个项目,它在上个月迎来了十周年。这十年已发生了很大的变化。如今,另外许多技术也是大数据和Hadoop生态系统的一员,它们大多数都归属Apache软件基金会。

开发人员和企业组织在使用诸多项目,开发大数据技术,并将它们捐献给开源社区,以便进一步发展和采用,其中就包括Spark、Hive、HBase和Storm。

在网飞和领英等一些企业,其中一些技术已用于生产环境。它们让企业组织能够实时处理海量数据,并转换那些数据,为最终客户改善服务。

这些大数据技术常常脱胎于试图改善大数据技术的工作方式、加快处理速度的企业组织。它们代表了生态系统的演变之路和下一波开源技术,这证明明智的参与者组成的社区取得的发展胜过专有企业环境里面的发展。

当前的开源和大数据时代完全始于Hadoop,它常常被誉为是一种面向分布式存储的开源框架,用于在大众化硬件上处理庞大数据集。

Hadoop发行版公司Hortonworks的企业战略副总裁Shaun Connolly在接受采访时告诉《信息周刊》杂志:“作为一种新兴的数据架构,Hadoop成为备受瞩目的中心。Hadoop周围出现了这个生态系统,备受关注的项目围绕它壮大起来。”

而发展并未止步。新的项目一直被Apache软件基金会纳入到大数据生态系统。最近,Apache Arrow就成了一个较高级项目。其他项目可能会作为Apache软件基金会的孵化器计划(Incubator)的一员而进入生态系统。去年年底,IBM面向Spark的SystemML机器学习引擎就得到了接受,成为一个孵化器项目。

有许多项目是Apache软件基金会的大数据生态系统的一员。本文介绍了一些重要项目,还介绍了几个新兴项目。欢迎留言交流!

Hadoop

Hadoop其实是开源大数据领域的旗舰技术。它是由雅虎的一个编外项目发展起来的,当时开发人员需要一种方法来存储和处理他们使用新的搜索引擎收集而来的海量数据。这项技术最终捐献给了Apache软件基金会。如今有来自商用公司的三大发行版:Cloudera、Hortonworks和MapR。Hadoop的开发者之一Doug Cutting最近接受了《信息周刊》杂志的采访,畅谈了Hadoop的发展。

Hive

Apache Hive最初由Facebook开发,后来捐献给了Apache软件基金会。这项技术是一种建立在Hadoop基础上的数据仓库基础设施,提供了数据汇总、查询和分析。

使用Hive的公司包括CNET和eHarmony。

HBase

Apache HBase脱胎于一家名为Powerset的公司所搞的一个项目,2008年该公司被微软收购。其目的是,处理海量数据,便于自然语言搜索。这项技术是一种非关系型的开源分布式数据库,仿照了谷歌的BigTable,用Java编写而成。2010年,HBase成为Apache软件基金会的一个项目。

如今使用HBase的公司包括Adobe、Facebook、Meetup和趋势科技。

Spark

Apache Spark俨然就是大数据生态系统冉冉升起的明星。这项技术最初由加州大学伯克利分校的AMP实验室开发。它可以取代Hadoop的MapReduce,不过速度更快,因为Spark改而使用内存中处理技术,其性能最多高出100倍,这取决于具体应用。

Spark的开发人员现在供职于Databricks,该公司是支持Apache软件基金会内部这个项目的主力军,它还提供商用的Spark即服务( Spark-as-a-Service)。截至2015年年底,Spark是所有大数据项目中最活跃的开源项目,之前12个月有600多个代码捐献者。

如今许多公司使用Spark,包括亚马逊、Autodesk、电子港湾、Groupon、OpenTable和TripAdvisor。

Kafka

Apache Kafka起初只是领英公司内部的一个项目,作为一种消息传递系统,用于代理安排该公司面向消费者的职业网站及平台生成和处理的海量实时数据。

2011年,Kafka捐献给了开源社区,2012年从Apache孵化器计划出来。当初开发Kafka的领英开发人员成了从领英拆分出来的Confluent这家新公司的成员。

使用Kafka的公司包括领英、推特、网飞、Pinterest、高盛和Coursera。

Storm

Apache Storm在其项目页面上的描述是,这是一种分布式实时计算系统,让用户很容易可靠地处理无限制的数据流,正如Hadoop用于批量处理,Storm用于实时处理。

这项技术有时被称为是Spark的替代技术。2011年,开发Storm的公司BackType被推特收购。2014年,从孵化器计划出来后,Storm成为了Apache软件基金会的一个较高级项目。

此后,推特开发了自己的内部系统,用于处理最初分派给Storm的任务。使用Storm的公司包括雅虎和Spotify。

Nifi

Apache Nifi原先名叫Niagara Files,这个技术转让项目由美国国家安全局(NSA)开发,2014年11月,它作为一个孵化器项目,捐献给Apache软件基金会。2015年,它成了一个较高级项目。

Nifi旨在处理这个问题:如何让数据在系统之间的流动实现自动化。其在Apache软件基金会上的项目页面介绍,这项技术“支持功能强大、可扩展的有向图,这些有向图涉及数据路由、转换和系统中介逻辑。”

它提供了一种基于Web的用户界面。另外,与NSA开发的其他项目一样,它也提供了安全功能,包括SSL、SSH、HTTPS、加密内容,以及可插入式、基于角色的验证和授权机制。

Flink

2015年1月,Apache基金会接受Apache Flink成为一个较高级项目。这项技术是一种面向批量数据和流数据的分布式数据分析引擎,它提供了使用Java和Scala的编程API。

该项目脱胎于柏林的Stratosphere研究项目。使用Flink的企业组织包括第一资本(Capital One)和Data Artisans。

Arrow

这个月,Apache Arrow被Apache软件基金会接收为一个较高级项目。这项技术源自Dremio公司,这家公司还捐献了Apache Drill项目。Dremio的几位创始人是从MapR出来的,这是一家Apache Hadoop发行版公司。

据Apache软件基金会声称,Arrow最初是靠来自Apache Drill项目的代码起家的。据Dremio的联合创始人兼首席技术官Jacques Nadeau声称,Arrow提供了列式内存分析功能。

Apache软件基金会的更多大数据项目

这些是Apache软件基金会里面Hadoop生态系统中一些备受关注的大数据项目。另外许多是捐献而来的。所有这些项目的开发工作都在进行之中,Apache软件基金会的网站对它们都有全面记载。

Connolly告诉《信息周刊》杂志:“Apache之道就是社区比代码重要。虽然技术值得关注,但是Apache之道是把社区放在首位。”

欢迎加入本站公开兴趣群

软件开发技术群

兴趣范围包括:Java,C/C++,Python,PHP,Ruby,shell等各种语言开发经验交流,各种框架使用,外包项目机会,学习、培训、跳槽等交流

QQ群:26931708

Hadoop源代码研究群

兴趣范围包括:Hadoop源代码解读,改进,优化,分布式系统场景定制,与Hadoop有关的各种开源项目,总之就是玩转Hadoop

QQ群:288410967 

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/3902.html

相关文章

  • 2017年大数十大发展趋势

    摘要:本文涵盖大数据未来发展的十大趋势,这些趋势可能对年及以后的大数据市场产生极大影响。高德纳咨询公司称,机器学习是年十大战略技术趋势之一。一些大数据供应商已经推出了具有自助服务能力的大数据分析工具,专家预计这种趋势将持续到年及以后。 虽然大数据市场将会继续增长这一点毋庸置疑,但企业应该如何应用大数据呢?目前还没有一个清楚的答案。新的大数据技术正在进入市场,而一些旧技术的使用还在继续增长。本...

    haobowd 评论0 收藏0
  • Serverless 将赶走 OpenStack 私有云!

    摘要:据的奈特塔格特声称,除了极少数人外,大多数开发人员还没有使用无服务器计算平台来开发完整的应用程序。相比之下,私有云似乎备受冷落,无人问津。年是拐点,一度闹猛的私有云现象会在今年开始悄无声息。 作者:David S. Linthicum是Cloud Technology Partner公司的顾问,也是享有国际声誉的行业专家和思想领袖。他写过计算机方面的13本图书,定期TechBeacon网站撰...

    hiyayiji 评论0 收藏0
  • Hadoop大数最炫目的60款顶级开源工具

    摘要:说到处理大数据的工具,普通的开源解决方案尤其是堪称中流砥柱。这回我们推出了的较高级开源大数据工具排行榜。它还含有用于分析和显示数据的工具。它是大数据库套件的一部分。 说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱。弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,100%的大公司会采用Hadoop。Market Resear...

    LancerComet 评论0 收藏0
  • 云安全风险潜伏大数项目

    摘要:在监测和信息安全培训机构的大数据安全会议上,表示,经常有业务部门绕过团队使用信用卡来租用云计算基础设施。云安全联盟和其他组织已经明确指出了云计算的潜在风险。表示,与大数据相关的工具通常也不太安全。      微软Windows Azure或者其他云基础设施供应商的云计算服务来进行大数据分析,因为大数据分析项目往往需要足够的计算能力来进行大规模数据分析。虽然这些云计算服务能够帮助企业捕捉、管理...

    call_me_R 评论0 收藏0
  • 让你的Hadoop运行的更快

    摘要:目前,在数据处理上的一个挑战是,我们输入数据的速度往往比我们处理数据的速度快得多。用生产线这个很好的比喻来解释其中的差别。 目前,在数据处理上的一个挑战是,我们输入数据的速度往往比我们处理数据的速度快得多。在大数据的环境下,随着数据量的继续增长,以及相应的需要更多的复杂的数据处理,这个问题正变得更加明显。 帮助批处理 Hadoop的目的是通过以下几种方式应对这一挑战: 1. 使用一个分布式...

    Riddler 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<