资讯专栏INFORMATION COLUMN

Hadoop的实时分析之路

scwang90 / 1072人阅读

摘要:但长期以来,包括即席查询在内的实时分析一直是的痛点。很多运行在上的其他技术才是实时分析工具。然而,由于其分布式结构设计,和很多应用案例不得不把数据放到上,很多供应商和最终用户都希望在上添加实时分析或即席查询。

 原文作者:Ed Burns 

 

随着大数据时代的到来,Hadoop声名鹊起,这个开源的分布式处理架构似乎可以处理大数据的任何问题。但长期以来,包括即席查询在内的实时分析一直是Hadoop的痛点。

Hadoop可以处理大规模数据集,包括结构化数据、非结构化数据和半结构化数据,但Hadoop的是按照批量处理系统来设计的,这也就限制了它的反应速度。

数字广告公司Rubicon Project负责技术运营的副总裁And Jan Gelin表示,在线广告经纪人非常需要快速的分析。

Rubicon Project为广告客户提供平台,通过该平台,广告客户在竞标前能够看到网站访问者的信息,这样就能保证广告只投放到了有兴趣的用户那里。Gelin表示,整个流程包含很多分析,这些分析必须在不足1秒钟的时间内全部完成。

广告竞标平台的搭建,很大程度上依赖于Hadoop。但Gelin表示,把实时分析技 术和Hadoop结合起来才是关键。Rubicon公司用Storm复杂事件处理引擎来捕获和快速分析广告竞标流程中的大量数据。之后Storm将这些数 据发送到MapR Technologies公司的Hadoop集群中。Hadoop集群主要用于将数据转化到更传统的分析应用,比如商务智能报表。即使在这一阶段,转化过 程完成之后,也有很多信息加载到Greenplum分析型数据库中。

 

 

Hadoop的实时分析

Gelin表示,公司每天生产的数据量当然要靠Hadoop的处理能力;但对于数据分析,你不得不承认Hadoop是一个批量处理系统。很多运行在Hadoop上的其他技术才是实时分析工具。

有些Hadoop供应商竭力回避Hadoop的实时分析障碍。Cloudera在四月份发布了它的Impala查询引擎,声称可以在Hadoop数据上运 行交互式SQL查询语言,实现近实时分析。EMC和VMWare合资成立的新公司Pivotal致力于数据管理和分析,它在三个月后发布了相似的查询引擎 Hawq。甚至专注于捕捉机器产生的数据流的Splunk也加入了进来,它推出的Hadoop数据分析工具Hunk在十月末发行。

十月份发布的Hadoop 2.0向应用程序开放了Hadoop系统。Forrester调查公司的分析师Mike Gualtieri认为,随着这些新工具的发布和研发,Hadoop终会解决实时分析的难题。其中一个重要的因素在于,供应商和Hadoop用户都迫切希 望在分析应用中实现实时或近实时分析技术。

Gualtieri表示:“Hadoop本质上是一个批处理环境。然而,由于其分布式结构设计,和很多应用案例不得不把数据放到Hadoop上,很多供应商和最终用户都希望在Hadoop上添加实时分析或即席查询。”

 

 

发展障碍

Gualtieri认为阻碍Hadoop实现实时分析的主要有两点。首先,大部分的新的Hadoop查询引擎运行速度没能像主流关系型数据库中的查询那样 快。在Impala和Hawq这样的工具中,最终用户可以用SQL语言写查询指令,在Hadoop集群执行的时候,这些指令要翻译成MapReduce语 言。整个过程是很慢的,远逊于直接在关系型数据库中运行SQL查询。

其次,与关系型数据库相比,Hadoop目前还是一个只读的系统。数据一旦写入Hadoop分布式文件系统(HDFS),用户很难插入、删除或修改存储的数据。

虽然存在着这些困难,但Gualtieri认为这些是可以克服的。Hadoop 2就包含了把数据附加到HDFS文件的能力。

Gartner的分析师Nick Heudecker认为,虽然新查询引擎不支持实时数据分析功能,但它更平民化,没有技术背景的用户也可以访问和分析存储在Hadoop中的数据。因为 MapReduce开发人员不需要再写查询指令,所以与运行Hadoop分析相关的时间和成本就大大减少了。

IT服务供应商OpenSource的咨询顾问Patricia Gorla表示,组织需要仔细考虑是否要部署这样的工具。Hadoop的可扩展性和承受能力是很诱人,但它也可能将业务引向歧途。组织需要了解哪些是最适 合Hadoop的,而不是让Hadoop去适合一个它本不属于的系统架构。要记住,“Hadoop只擅长它所擅长的东西” 。

 

 

 

 

 

本文转载自:http://www.searchbi.com.cn/showcontent_79032.htm

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/3838.html

相关文章

  • Hadoop MapReduce:数据科学家探索之路

    摘要:近几年在解决大数据问题的迫切感驱使下,许多组织的数据架构师开始走向探索之路。大数据技术快速发展最近几年,更受关注的方法之一是。大数据分析的技术缺口指出,虽然的成本优势可能有利于它的普及,但是技术问题仍然令人担忧。 Forrester分析师James Kobielus在一篇关于大数据的博客中指出:关键不在于采用什么方法,而在于能够使用任意可用工具或方法真正地解决问题。     近几年在解决大...

    xuweijian 评论0 收藏0
  • Hadoop生态系统在壮大:十大炫酷大数据项目

    摘要:在开发人员开发以克服大数据带来的挑战之后的年间,这些技术的生态系统在不断发展壮大。如今,另外许多技术也是大数据和生态系统的一员,它们大多数都归属软件基金会。软件基金会的更多大数据项目这些是软件基金会里面生态系统中一些备受关注的大数据项目。 在开发人员开发Hadoop以克服大数据带来的挑战之后的10年间,这些技术的生态系统在不断发展壮大。Apache软件基金会下面有众多的开源大数据技术项目。本...

    lyning 评论0 收藏0
  • 从小白程序员一路晋升为大厂高级技术专家我看过哪些书籍?(建议收藏)

    摘要:大家好,我是冰河有句话叫做投资啥都不如投资自己的回报率高。马上就十一国庆假期了,给小伙伴们分享下,从小白程序员到大厂高级技术专家我看过哪些技术类书籍。 大家好,我是...

    sf_wangchong 评论0 收藏0
  • Google打造云中Hadoop便捷版,强势对抗AWS

    摘要:打造云中便捷版,强势对抗上周,为其增加了连接器,这样开发人员现在已经能够很轻松的在计算虚拟机上进行操作了,的预览版将使开发人员不用再花大力气去管理集群和文件系统。在此领域,和的竞争将更加激烈。但他同时表示这可能有问题。 1. Google打造云中Hadoop便捷版,强势对抗AWS上周,Google为其Google Cloud Platform增加了Hadoop 连接器,这样开发人员现在已经能...

    Rindia 评论0 收藏0
  • 十年回顾:Hadoop老矣,尚能饭否?

    摘要:在年于上公开了描述其分布式文件系统的论文,为提供了及时的帮助。至年,它逐渐成为一套完整而独立的软件,已经到工作的将这套大数据处理软件命名为。 Hadoop,十岁生日快乐!于2006年1月28日诞生的它改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用。InfoQ特别策划了系列文章,为大家梳理Hadoop这十年的变化,以及技术圈...

    gyl_coder 评论0 收藏0

发表评论

0条评论

scwang90

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<