资讯专栏INFORMATION COLUMN

Hadoop连接器软件让数据库进入大数据库时代

silencezwm / 1798人阅读

摘要:连接器座右铭各得其所表示目前用户将信息放到关系型数据库中,主要是因为用数据源还不能轻松地制作报表。

       Hadoop有多火?从业界的一系列举动就可以看出来。包括甲骨文、微软、Sybase在内的主流数据库厂商都纷纷发布了Hadoop连接器产品,为的就是让用户可以在传统关系型数据库与开源分布式处理系统之间更轻松地传输信息。

  这些厂商将Hadoop连接器软件视为“大数据管 理”战略的重要一环,但是并不是只有主流的数据库厂商在做这件事。像数据仓库提供商Teradata以及惠普公司的Vertica都推出了类似的 Hadoop产品,也不乏Informatica、Talend这样的数据集成软件厂商。而像Hortonworks、Cloudera以及MapR这样 的创业公司也在这一生态系统中扮演了非常重要的角色。


  OpenLogic公司的技术总监Rod Cope在使用Hadoop方面有着非常丰富的经验,他告诫用户在使用Hadoop连接器之前,需要考虑应用到场景以及对数据的需求。Cope介绍他的公司使用了Hadoop、HBase和一个列式的NOSQL数据库组 合,它们作为OpenLogic主营业务的一部分,能够帮助其客户审计软件应用,以核查所使用的嵌入式开源代码是否符合相关的许可。OpenLogic目 前尚未部署任何连接器软件,但是Cope表现出对这一技术的几大好奇,他认为可以使用这样的软件来将频繁访问的数据从一个关系型数据库转移到Hbase上 面做归档。


  但是Cope认为,Hadoop连接器软件也并不能解决所有问题,感兴趣的用户需要注意加载数据的速度。在处理大数据的时 候,人们往往对性能的标准并不如之前那么关注,如果加载数据到Hadoop用户的时间超长,那么使用连接器的意义就不大了。问题其实并不出在Hadoop 上,而是你加载的数据源。


  Ventana研究机构的分析师David Menninger表示,Hadoop分布式文件系统(HDFS)以及在其基础之上构建的数据库产品能够为用户提供非常好的数据管理与分析解决方案,这是 相对于传统关系型数据库和数据仓库而言。这些数据可能是机器生成的大数据,比如Web搜素日志、社交媒体信息、手机通话记录以及其他一些非结构化的数据。


  Menninger指出,Hadoop连接器软件使用的一个典型场景,就是企业使用Hadoop系统从大量的非结构化数据源中抽取少量结构化分析信息,然后再将其传输到关系型数据库当中以便使用BI工具进行进一步的分析。


  Hadoop连接器座右铭:各得其所

  Menninger表示:“目前用户将信息放到关系型数据库中,主要是因为用Hadoop数据源还不能轻松地制作报表。业界中有一套成熟的报表和分析系统,当然这都是针对关系型数据而言。”


  这样的数据传输并不一定是一锤子买卖,也许你正在计算某一事件的发生次数,然后又想要计算两件事一起发生的次数。你可以返回到数据源,然后再处理一遍信息,这就是为什么人们不会把非结构化的数据删除,它们可以存放在Hadoop中。


   此外,同SQL数据库相比,Hadoop为高级分析和数据挖掘应用提供了更好的环境。比如分析客服电话日志以及社交媒体上的信息,找出客户的兴趣点以及 对某一产品的口碑。这对于SQL来说是非常困难的一件事,但是它可以通过Hadoop连接器来把信息传输到关系型数据库或者数据仓库当中。


   Tynt多媒体公司的副总裁Cameron Befus表示,他们使用了Hadoop来为超过50万的用户提供分析服务。此外,Tynt还使用了开源的MySQL数据库来作为后端的支持。到目前为 止,Befus还没有看到部署Hadoop连接器的必要,他说:“我们的确会把数据进行转移,但这通常是很直接的。我们会把文件从Hadoop直接导入 MySQL中,如果使用连接器的话也许会轻松一些,但是这对我们来说并不是什么难题。”


  但IT分析师认为随着Hadoop的普及,这样 的连接器软件使用频率将逐渐多起来。像Menninger这样的分析师认为,公司希望能够把基于Hadoop的分析结果导入更大的业务环境中去,这也是连 接器技术发展的推动力。当我们看大数据的时候什么最重要?那就是这些数据能够告诉我关键的问题是什么。用户希望能够在非结构化数据、流数据、有意义的数据 以及高度结构化的数据之间构建一座桥梁,以便能够通过分析来找到问题根源所在。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/3731.html

相关文章

  • 如何使用Hadoop进入据库时代

    摘要:目前尚未部署任何连接器软件,但是表现出对这一技术的几大好奇,他认为可以使用这样的软件来将频繁访问的数据从一个关系型数据库转移到上面做归档。此外,还使用了开源的数据库来作为后端的支持。 Hadoop有多火?从业界的一系列举动就可以看出来。包括甲骨文、微软、Sybase在内的主流数据库厂商都纷纷发布了Hadoop连接器产品,为的就是让用户可以在传统关系型数据库与开源分布式处理系统之间更轻松地传输...

    wenshi11019 评论0 收藏0
  • 2014的12个数据趋势:Hadoop继续升温,R将进入主流

    摘要:越来越多的企业拥抱大数据技术,并将其运用到生产环境中。将成为企业的关键组件将普及,大数据也不会再继续止步于云服务。认为,年,的适用场景将超越批处理和存储,将成为企业数据架构中通用的核心组件,这意味着数据分析将继续成为大数据的首要用例。 当下,大数据已成为2013年最火的技术词汇之一;而在过去一年,这个市场的增速和改变也不可谓不大。同时,我们还看到了Hadoop及其生态 系统的使用门槛从顶尖技...

    pingink 评论0 收藏0
  • 飞起来的象-Hadoop从离线到在线

    摘要:业内哪些事情值得关注大数据解决方案提供商上市。加密过程是端到端的,这意味着数据只能在应用程序解密。计划未来支持部署在多机房,实现跨机房容灾,零丢失率,低延时。目前支持此种方式的数据类型有。 时代在变迁,市场在变化,周边的软硬件环境也突飞猛进般的发展,同时企业的业务需求也不断升级,从规模到成本都有较高的要求,这刺激Hadoop生态圈的变革。据AMR研究显示,到2020年Hadoop将拥有502...

    Rango 评论0 收藏0
  • 解读一个新IBM的平台战略:云、数据分析与人工智能

    摘要:可以说,云大数据分析和人工智能正在成为的新灵魂。而在年创纪录产生的多项专利中,的专利是云大数据分析及认知计算相关。 IBM董事长及CEO Ginni Rometty现在,一个新IBM正在浮出水面。在IBM的2015年财报上写道:今天的IBM已经不仅是一家‘硬件、软件与服务’公司,而转型成为一家认知解决方案与云平台公司。在公司100多年的历史上,IBM第一次称自己是一家平台公司。IBM首席财务...

    Clect 评论0 收藏0
  • 数据开源时代 Hadoop能淘到金吗

    摘要:分析公司表示截止到年大数据产值将达亿美元。不过我们尚不明确,这个市场有多新,或者除了大数据新兴企业是否真正会刮起一个淘金热。有大量大众化的数据,将其转化为有竞争力的市场。好消息是,一些企业将会从大数据的淘金热中致富。 IDC的大数据市场预测,大数据将会迎来大时代。分析公司表示截止到2015年大数据产值将达169亿美元。不过我们尚不明确,这个市场有多新,或者除了大数据新兴企业是否真正会刮起一个...

    yuxue 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<