资讯专栏INFORMATION COLUMN

Apache Tajo:一个运行在YARN上支持SQL的分布式数据仓库

gclove / 2950人阅读

摘要:典型代表是,这种系统的特点是扩展性和容错性好,但性能低下。借鉴分布式数据库思想。具体见参考资料,下载,下载是韩国大学数据库实验室开源的基于的分布式数据仓库,目前是的二级项目。此外,使用进行资源管理。

1. 背景

当前,Hadoop之上的SQL引擎已经非常多了,概括起来有两类系统,分别是:

(1)将SQL转化为MapReduce。典型代表是Apache Hive,这种系统的特点是扩展性和容错性好,但性能低下。为了弥补SQL on MapReduce的不足,google提出了Tenzing(见参考资料[3]),与Hive不同,Tenzing充分借鉴了MapReduce和DataBase的优势,首先,它对传统的MapReduce进行了优化(比如Map 可以不写磁盘,Reduce可不必排序等),使其性能更高,采用MapReduce一大优势是使Tenzing具有了很好的扩展性和容错性,Tenzing论文是这样表述的:

“Thanks to MapReduce, Tenzing scales to thousands of cores and petabytes of data on cheap, unreliable hardware. We worked closely with the MapReduce team to implement and take advantage of MapReduce optimizations.”

其次,它借鉴了传统database的优势,嵌有一个cost-based 优化器,以对SQL查询计划进行充分优化。

(2)借鉴分布式数据库思想。典型代表是Google Dremel、Apache Drill和Cloudera Impala,这类系统的特点是性能高(与Hive等系统比),但扩展性(包括集群规模扩展和SQL类型支持多样性)和容错性较差,Google在Dremel论文(见参考资料[4])中这样描述Dremel的适用场景:

“Dremel is not intended as a replacement for MR and is often used in conjunction with it to analyze outputs of MR pipelines or rapidly prototype larger computations.”

也就是说,Dremel并不是用以取代MR的,而是弥补MR不足,通常用于分析MR产生的数据(这些数据量小,处理这些数据时,对SQL表达能力和框架容错性要求低)。

Apache tajo(具体见参考资料[1][2],tajo ppt下载,tajo paper下载)是韩国大学数据库实验室开源的基于YARN的分布式数据仓库,目前是Apache的二级项目。Tajo的设计思想类似于Tenzing,它充分借鉴了MapReduce和DataBase的优势,使其具有Hive的扩展性和容错性好的优点,但同时性能比Hive高不少。

2. Tajo设计架构

Tajo采用了Master-worker架构,具体如下:

(1) TajoMaster:为客户端提供查询服务和管理各个QueryMaster。

(2) QueryMaster:负责一个query的解析、优化与执行,它与多个task runner worker协同工作,完成一个query的计算。

如下图所示,Tajo采用传统数据库技术开发了SQL解析器,包括SQL解析,生成查询计划、优化查询计划、执行查询技术等,但与传统数据库不同,Tajo最终执行查询计划时借鉴了MapReduce的设计思想,它将查询计划转化为一系列任务,这样,执行查询计划实际上就是执行这些任务,而每个任务是一个计算单位,同Map Task和Reduce Task一样,它可以重复执行、有进度汇报等,这样,Tajo可以直接使用MapReduce中的容错、推测执行等机制。此外,Tajo使用YARN进行资源管理。

我在前一篇博文《Apache Tez:一个运行在YARN之上支持DAG作业的计算框架》中介绍了Tez,其中谈到Hive+Tez,经Tez优化后的Hive是一个非常有前景的项目,此外,Tajo也谈到,将来不排除使用Tez作为底层计算框架的可能:

Besides, Tez has some overlapping functions with Tajo. However, Tez is in the pre-alpha stage and may be a prototype. When Tez becomes feasible, Tajo could use Tez as an underlying framework according to the applicability. However, Tajo will still use its row/native columnar execution engine and its optimizer. Tajo may be potentially the first application of Tez.


3.总结

真正可能取代Hive的是Tenzing或者Tajo这样的系统,而不是类似Dremel或者Impala的系统。后者在扩展性、SQL表达能力(主要是它的嵌套存储模型导致的)和容错性等方面远远差于Hive/Tenzing/Tajo,正如Dremel论文所述,Dremel通常与MR结合使用,设计动机并不是取代MR,而是使某些场景下的计算更加高效。此外,Dremel和Impala是一种计算系统,它们需要计算资源,却没有集成到当前发展迅猛的资源管理系统YARN中,这意味着,如果采用Impala这样的系统,你只能多带带搭一个独立的专有集群,无法做到资源共享。即使Impala成熟了,如果Hive的取代品(比如Tajo)没有成熟,则长期时间内,大部分公司仍然主要采用Hive(这时候,Hortonworks的Hive+Tez就有用武之地了)进行大数据处理,而Impala仅用于进一步处理Hive输出的结果或者用于某一类适合场景的应用(毕竟这类系统的SQL表达能力有限,容错性和扩展性差)。

就Tajo而言,目前活跃度很低,只有韩国大学的数据库实验室的几个人在开发,离真正的可用还有很长时间,但它已经迈出了第一步,即成为Apache的项目,让更多的人参与进来。

4.参考资料

Tajo’s slide

Tajo: A Distributed Data Warehouse System on Large Clusters.

Tenzing: A SQL Implementation On The MapReduce Framework

Dremel: Interactive Analysis of Web-Scale Datasets


by 西成懂 under CC-BY

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/35713.html

相关文章

  • Apache Tajo一个运行YARN支持SQL布式数据仓库

    摘要:典型代表是,这种系统的特点是扩展性和容错性好,但性能低下。借鉴分布式数据库思想。具体见参考资料,下载,下载是韩国大学数据库实验室开源的基于的分布式数据仓库,目前是的二级项目。此外,使用进行资源管理。 1. 背景 当前,Hadoop之上的SQL引擎已经非常多了,概括起来有两类系统,分别是: (1)将SQL转化为MapReduce。典型代表是Apache Hive,这种系统的特点是扩展...

    Noodles 评论0 收藏0
  • SQL on Hadoop开源项目总结

    摘要:下文总结了一些这个领域的开源项目,供参考。支持初期由开发,现在也是积极用户和贡献者基于的关系型数据库层。支持由开发基于的数据查询执行引擎。支持由和开源社区开发严格意义上不属于,但是其有特殊的技术,所以值得一提。 随着Hadoop的流行,越来越多的企业把数据存储在Hadoop上,或者Non-SQL数据库上,随之相关的数据处理技术也从一开始的Map Reduce一统江湖,到现在各种技术竞相...

    Scott 评论0 收藏0
  • SQL on Hadoop开源项目总结

    摘要:下文总结了一些这个领域的开源项目,供参考。支持初期由开发,现在也是积极用户和贡献者基于的关系型数据库层。支持由开发基于的数据查询执行引擎。支持由和开源社区开发严格意义上不属于,但是其有特殊的技术,所以值得一提。 随着Hadoop的流行,越来越多的企业把数据存储在Hadoop上,或者Non-SQL数据库上,随之相关的数据处理技术也从一开始的Map Reduce一统江湖,到现在各种技术竞相...

    myeveryheart 评论0 收藏0
  • 盘点Hadoop生态圈:13个让大象飞起来开源工具

    摘要:与相同的元数据语法驱动程序和用户接口,可以直接在或上提供快速交互式查询。目前支持的组件包括及。 Hadoop是由Apache基金会开发的一个大数据分布式系统基础架构,最早版本是2003年原Yahoo! Doug Cutting根据Google发布的学术论文研究而来。用户可以在不了解分布式底层细节的情况下,轻松地在Hadoop上开发和运行处理海量数据的应用 程序。低成本、高可靠、高扩展、高有...

    syoya 评论0 收藏0
  • 盘点SQL on Hadoop中用到主要技术

    摘要:存储层一般是,但也有可以查询,或者关系数据库的。在关系数据库中早有另一种优化方式,也就是基于代价的优化。这些都已经在关系数据库中得到了实践。 考虑到系统使用的广泛程度与成熟度,在具体举例时一般会拿Hive和Impala为例,当然在调研的过程中也会涉及到一些其他系统,如Spark SQL,Presto,TAJO等。而对于HAWQ这样的商业产品和apache drill这样成熟度还不是很高的开源...

    blastz 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<