资讯专栏INFORMATION COLUMN

如何使用Hadoop进入大数据库时代?

wenshi11019 / 1132人阅读

摘要:目前尚未部署任何连接器软件,但是表现出对这一技术的几大好奇,他认为可以使用这样的软件来将频繁访问的数据从一个关系型数据库转移到上面做归档。此外,还使用了开源的数据库来作为后端的支持。

Hadoop有多火?从业界的一系列举动就可以看出来。包括甲骨文、微软、Sybase在内的主流数据库厂商都纷纷发布了Hadoop连接器产品,为的就是让用户可以在传统关系型数据库与开源分布式处理系统之间更轻松地传输信息。


这些厂商将Hadoop连接器软件视为“大数据管理”战略的重要一环,但是并不是只有主流的数据库厂商在做这件事。像数据仓库提供商Teradata以及惠普公司的Vertica都推出了类似的Hadoop产品,也不乏Informatica、Talend这样的数据集成软件厂商。而像Hortonworks、Cloudera以及MapR这样的创业公司也在这一生态系统中扮演了非常重要的角色。


OpenLogic公司的技术总监Rod Cope在使用Hadoop方面有着非常丰富的经验,他告诫用户在使用Hadoop连接器之前,需要考虑应用到场景以及对数据的需求。Cope介绍他的公司使用了Hadoop、HBase和一个列式的NoSQL数据库组合,它们作为OpenLogic主营业务的一部分,能够帮助其客户审计软件应用,以核查所使用的嵌入式开源代码是否符合相关的许可。OpenLogic目前尚未部署任何连接器软件,但是Cope表现出对这一技术的几大好奇,他认为可以使用这样的软件来将频繁访问的数据从一个关系型数据库转移到Hbase上面做归档。


但是Cope认为,Hadoop连接器软件也并不能解决所有问题,感兴趣的用户需要注意加载数据的速度。在处理大数据的时候,人们往往对性能的标准并不如之前那么关注,如果加载数据到Hadoop用户的时间超长,那么使用连接器的意义就不大了。问题其实并不出在Hadoop上,而是你加载的数据源。


Ventana研究机构的分析师David Menninger表示,Hadoop分布式文件系统(HDFS)以及在其基础之上构建的数据库产品能够为用户提供非常好的数据管理与分析解决方案,这是相对于传统关系型数据库和数据仓库而言。这些数据可能是机器生成的大数据,比如Web搜素日志、社交媒体信息、手机通话记录以及其他一些非结构化的数据。


Menninger指出,Hadoop连接器软件使用的一个典型场景,就是企业使用Hadoop系统从大量的非结构化数据源中抽取少量结构化分析信息,然后再将其传输到关系型数据库当中以便使用BI工具进行进一步的分析。

Menninger表示:“目前用户将信息放到关系型数据库中,主要是因为用Hadoop数据源还不能轻松地制作报表。业界中有一套成熟的报表和分析系统,当然这都是针对关系型数据而言。”


这样的数据传输并不一定是一锤子买卖,也许你正在计算某一事件的发生次数,然后又想要计算两件事一起发生的次数。你可以返回到数据源,然后再处理一遍信息,这就是为什么人们不会把非结构化的数据删除,它们可以存放在Hadoop中。


此外,同SQL数据库相比,Hadoop为高级分析和数据挖掘应用提供了更好的环境。比如分析客服电话日志以及社交媒体上的信息,找出客户的兴趣点以及对某一产品的口碑。这对于SQL来说是非常困难的一件事,但是它可以通过Hadoop连接器来把信息传输到关系型数据库或者数据仓库当中。


Tynt多媒体公司的副总裁Cameron Befus表示,他们使用了Hadoop来为超过50万的用户提供分析服务。此外,Tynt还使用了开源的MySQL数据库来作为后端的支持。到目前为止,Befus还没有看到部署Hadoop连接器的必要,他说:“我们的确会把数据进行转移,但这通常是很直接的。我们会把文件从Hadoop直接导入MySQL中,如果使用连接器的话也许会轻松一些,但是这对我们来说并不是什么难题。”


但IT分析师认为随着Hadoop的普及,这样的连接器软件使用频率将逐渐多起来。像Menninger这样的分析师认为,公司希望能够把基于Hadoop的分析结果导入更大的业务环境中去,这也是连接器技术发展的推动力。当我们看大数据的时候什么最重要?那就是这些数据能够告诉我关键的问题是什么。用户希望能够在非结构化数据、流数据、有意义的数据以及高度结构化的数据之间构建一座桥梁,以便能够通过分析来找到问题根源所在。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/3753.html

相关文章

  • Hadoop连接器软件让据库进入据库时代

    摘要:连接器座右铭各得其所表示目前用户将信息放到关系型数据库中,主要是因为用数据源还不能轻松地制作报表。        Hadoop有多火?从业界的一系列举动就可以看出来。包括甲骨文、微软、Sybase在内的主流数据库厂商都纷纷发布了Hadoop连接器产品,为的就是让用户可以在传统关系型数据库与开源分布式处理系统之间更轻松地传输信息。  这些厂商将Hadoop连接器软件视为大数据管 理战略的重要一...

    silencezwm 评论0 收藏0
  • Hadoop在电信数据业务系统中的应用

    摘要:电信大数据业务的源起联通研究院移动互联网产品开发事业部主任王志军王主任主要从四个方面介绍了大数据的应用第一方面源起,第二电信运营商有哪些大数据,第三中国联通建成的正在投入使用的大数据业务系统,第四大数据应用的展望举几个简单的例子。        2013年11月22-23日,作为国内专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoo...

    TANKING 评论0 收藏0
  • 2014的12个数据趋势:Hadoop继续升温,R将进入主流

    摘要:越来越多的企业拥抱大数据技术,并将其运用到生产环境中。将成为企业的关键组件将普及,大数据也不会再继续止步于云服务。认为,年,的适用场景将超越批处理和存储,将成为企业数据架构中通用的核心组件,这意味着数据分析将继续成为大数据的首要用例。 当下,大数据已成为2013年最火的技术词汇之一;而在过去一年,这个市场的增速和改变也不可谓不大。同时,我们还看到了Hadoop及其生态 系统的使用门槛从顶尖技...

    pingink 评论0 收藏0
  • 学习数据分析要什么基础,零基础入门ok吗?

    摘要:数据分析师原创作品身处世纪的今天,数据分析行业急剧发展,越来越多的企业已经意识到大数据分析的重要性和发展潜力,同时越来越多的传统行业公司开始转型升级,开始引入并发展专属自己的大数据分析部门及岗位。也是学习大数据的第一步。 showImg(https://segmentfault.com/img/bVbjO68?w=800&h=532);CDA数据分析师原创作品 身处21世纪的今天,数据...

    leap_frog 评论0 收藏0
  • 数据开源时代 Hadoop能淘到金吗

    摘要:分析公司表示截止到年大数据产值将达亿美元。不过我们尚不明确,这个市场有多新,或者除了大数据新兴企业是否真正会刮起一个淘金热。有大量大众化的数据,将其转化为有竞争力的市场。好消息是,一些企业将会从大数据的淘金热中致富。 IDC的大数据市场预测,大数据将会迎来大时代。分析公司表示截止到2015年大数据产值将达169亿美元。不过我们尚不明确,这个市场有多新,或者除了大数据新兴企业是否真正会刮起一个...

    yuxue 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<