资讯专栏INFORMATION COLUMN

实现Hadoop快速交互式查询:舍“谷歌Dremel”就是“开源Drill”

nihao / 1776人阅读

摘要:现在,谷歌正在使用工具来快速分析事务,而则支持了一个类似于的开源版本。实现快速交互式查询舍谷歌就是开源在文档中如此描述,一个专为互动分析大型数据集的分布式系统。

在大数据时代,对于Hadoop中的信息,越来越多的用户需要能够获得快速且互动的分析方法。现在,谷歌正在使用Dremel工具来快速分析事务, 而Apache Foundation则支持了一个类似于Dremel的开源版本——Drill。(Dremel是一种用来分析信息的方法,它可以在数以千计的服务器上运 行,允许你“请求查询”海量数据,如网络文件的集合或是数字图书馆等,甚至是描述成百上千万条垃圾游戏信息的数据。这类似于分析一个使用SQ语言L的传统 数据库。而Dremel能以极快的速度处理网络规模的海量数据。据谷歌的研究报告显示,你能以拍字节(petabyte,PB,1PB等于1024TB) 的数量级来进行查询,而且只需几秒钟时间就能完成。)

实现Hadoop快速交互式查询:舍“谷歌Dremel”就是“开源Drill”

在Apache Foundation文档中如此描述:Drill,一个专为互动分析大型数据集的分布式系统。

目前来看,MapReduce通常用于执行Hadoop数据上的批处理分析,但并不适合于你想快速得到结果或者重新定义查询参数。如果想要做到这些,你需要一个新工具,比如Drill。其可以通过对PB字节数据的快速扫描(大约几秒内)完成相关分析。

“Drill与MapReduce相辅相成。在谷歌,数以千计的工程师每天都在使用Dremel和MapReduce,未来也将有着更多的人来使用 Drill与MapReduce”, Tomer Shiran如此表示。他也是MapR的产品管理总监,一直支持Drill的开发。

Apache这一项目最初的目标是建立共同的API和制定架构来容纳更多数据源,数据格式和查询语言。早期参与者包含MapR的技术员工如 Shiran、Jason Frantz、Ted Dunning、MC Srivas、Keys Botzum和Gera Shegalov。Shiran表示,希望更多贡献者的加入,比如来自电子商务公司和Web2.0的企业即使他们是MapR的竞争对手。“人们已经看到 Google是如何利用Dremel的,我们希望也能做的那样好。”

支持者认为Drill可以和Hive、Pig以及Cascading一样成为在MapReduce中所需要的高级编译语言,并且可以更快 (Hadoop已经提供了在庞大的数据集合中运行SQL查询请求的工具,Pig和Hive等姊妹项目也是为此而构建的,但使用Hadoop会有迟延时 间)。显然,如何使大数据查询更快已经成为如今的一大主题。在一些情况中,用户需要分析大量的数据流来寻找满足一个任务的适合产品,比如像是暴风雨或是 Nodeable的StreamReduce。但是企业要想在现有HBase或者Hadoop的数据中实现快速或者瞬时查询,也许Drill就是答案。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/3791.html

相关文章

  • Hadoop的生命周期有多久?

    摘要:面对数据的爆炸性增长,谷歌的工程师和架构并发布了两个开创性的系统谷歌文件系统和谷歌。因此,谷歌研发了予以应对。总结尽管当前大数据技术的核心依然是,但谷歌却已经为我们展现了许多更先进的大数据技术。 Hadoop技术已经无处不在。不管是好是坏,Hadoop已经成为大数据的代名词。短短几年间,Hadoop从一种边缘技术成为事实上的标准。看来,不仅现在Hadoop是企业大数据的标准,而且在未来,它的...

    JinB 评论0 收藏0
  • Hadoop的辉煌还能延续多久?

    摘要:面对数据的爆炸性增长,谷歌的工程师和架构并发布了两个开创性的系统谷歌文件系统和谷歌。因此,谷歌研发了予以应对。尽管已经出现了上述大数据技术的开源实现,但我们不禁要问,的辉煌还能延续多久 Hadoop技术已经无处不在。不管是好是坏,Hadoop已经成为大数据的代名词。短短几年间,Hadoop从一种边缘技术成为事实上的标准。看来,不仅现在Hadoop是企业大数据的标准,而且在未来,它的地位似乎一...

    zollero 评论0 收藏0
  • Impala:新一代开源大数据分析引擎

    摘要:从长远目标来看,想成为一个既支持大数据查询,又能支持高级数据分析任务的一体化数据处理系统。事实上,开源项目的生态圈,社区,发展速度等,往往在很大程度上会影响和等开源大数据分析系统的发展。 文 / 耿益锋 陈冠诚 Impala 项目主页在:https://github.com/cloudera/impala 大数据处理是云计算中非常重要的问题,自Google公司提出MapReduce...

    alogy 评论0 收藏0
  • 想学大数据?大数据处理的开源框架推荐

    摘要:大数据通常是不确定的,而多数处理框架已经适应了这一特性。正如其名,大数据通常以其大量的数据为特征,而这要求巨大乃至理论上无限的存储容量。栈是大数据处理框架的祖师爷,并且已经成为这些技术汇集的事实上的平台。 欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文讨论大数据处理生态系统和相关的架构栈,包括对适应于不同任务的多种框架特性的调研。除此之外,文章还从多个层次对框架进行...

    ralap 评论0 收藏0
  • Hadoop的实时分析之路

    摘要:但长期以来,包括即席查询在内的实时分析一直是的痛点。很多运行在上的其他技术才是实时分析工具。然而,由于其分布式结构设计,和很多应用案例不得不把数据放到上,很多供应商和最终用户都希望在上添加实时分析或即席查询。  原文作者:Ed Burns  随着大数据时代的到来,Hadoop声名鹊起,这个开源的分布式处理架构似乎可以处理大数据的任何问题。但长期以来,包括即席查询在内的实时分析一直是Hadoo...

    scwang90 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<