摘要:下文总结了一些这个领域的开源项目,供参考。支持初期由开发,现在也是积极用户和贡献者基于的关系型数据库层。支持由开发基于的数据查询执行引擎。支持由和开源社区开发严格意义上不属于,但是其有特殊的技术,所以值得一提。
随着Hadoop的流行,越来越多的企业把数据存储在Hadoop上,或者Non-SQL数据库上,随之相关的数据处理技术也从一开始的Map Reduce一统江湖,到现在各种技术竞相出现。最新的趋势是,大家普遍希望能够快速得到查询结果,做交互式查询,同时也希望传统的BI(Business Intelligence,商务智能)工具可以直接和基于Hadoop的大数据平台连接起来,以便使用现用工具进行可视化数据分析。
SQL on Hadoop是近几年发展起来的技术,解决了交互式查询和SQL支持的问题。下文总结了一些这个领域的开源项目,供参考。如有具体问题或任何反馈,欢迎联系作者本人:boyang798@gmail.com。
项目名称 | 技术特点 | 主导公司 |
---|---|---|
Apache Hive | 支持原生Hadoop数据存储和访问,存储数据schema等metadada信息,提供类SQL的数据查询语言 | 初期由Facebook开发,现在被Hadoop社区广泛接受 |
Apache Spark | 将Map Reduce缓存在内存中执行(RDD,Resilient Distributed Datasets),使用多级有向图来优化查询执行。Spark SQL支持JDBC和ODBC | Databricks |
Cloudera Impala | 使用C/C++实现的基于Hadoop的数据查询层,用户量比较大,与现有BI工具集成比较好 | Cloudera |
Stinger Initiative | 基于Hive的性能优化和提升,与Hadoop结合比较紧密 | Hortonworks |
Apache Drill | 以Google Dremel论文为基础,全新实现的数据查询层,不依赖Hadoop,支持schema free的数据查询。支持JDBC和ODBC | MapR |
Presto | 分布式SQL查询执行引擎,支持多种数据源,可扩展性比较好。支持JDBC | 初期由Facebook开发,现在Netflix也是积极用户和贡献者 |
Apache Phoenix | 基于Apache HBase的关系型数据库层。支持JDBC | 初期由Salesforce开发,现在被多家公司使用和共同开发 |
Apache Kylin | 基于Apache HBase的OLAP,使用OLAP Cube技术做多维数据预计算和聚合。支持JDBC | 由ebay开发 |
Apache Tajo | 基于Hadoop的数据仓库和SQL数据查询执行引擎。支持JDBC | 由Database Lab., Korea University开发 |
Cascading Lingual | 基于Hadoop的SQL数据查询执行引擎。支持JDBC | 由Cascading和Optiq开源社区开发 |
Dato (GraphLab) | 严格意义上不属于SQL on Hadoop,但是其有特殊的技术,所以值得一提。基于C++实现的数据存储和分析工具,初期是Graph Base的数据存储和查询技术,主要用于机器学习。现在也扩展为通用的大数据分析和处理平台。 | GraphLab由Carnegie Mellon University的Carlos Guestrin教授发起,现在改名为Dato,由dato.com公司主导 |
以上各个项目各有特点和优缺点,目前没有一家可以统一整个SQL on Hadoop市场,并且各自都仍在发展和演进之中。用户需要根据自己的特定应用场景和技术领域选择合适的工具。
扫描微信二维码联系作者
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/8160.html
摘要:下文总结了一些这个领域的开源项目,供参考。支持初期由开发,现在也是积极用户和贡献者基于的关系型数据库层。支持由开发基于的数据查询执行引擎。支持由和开源社区开发严格意义上不属于,但是其有特殊的技术,所以值得一提。 随着Hadoop的流行,越来越多的企业把数据存储在Hadoop上,或者Non-SQL数据库上,随之相关的数据处理技术也从一开始的Map Reduce一统江湖,到现在各种技术竞相...
摘要:而支持事务处理,尤其是分布式情况下的事务和数据一致性是很复杂的事情。 Trafodion是Apache基金会的一个开源项目,提供了一个成熟的企业级SQL-on-HBase解决方案。Trafodion的主要设计思想是处理operational类型的工作负载,或者是传统的OLTP应用。此外,对于需要保证数据一致性、需要标准SQL开发接口,或者需要实时数据读写分析的应用,Trafodion也...
摘要:而支持事务处理,尤其是分布式情况下的事务和数据一致性是很复杂的事情。 Trafodion是Apache基金会的一个开源项目,提供了一个成熟的企业级SQL-on-HBase解决方案。Trafodion的主要设计思想是处理operational类型的工作负载,或者是传统的OLTP应用。此外,对于需要保证数据一致性、需要标准SQL开发接口,或者需要实时数据读写分析的应用,Trafodion也...
摘要:而支持事务处理,尤其是分布式情况下的事务和数据一致性是很复杂的事情。 Trafodion是Apache基金会的一个开源项目,提供了一个成熟的企业级SQL-on-HBase解决方案。Trafodion的主要设计思想是处理operational类型的工作负载,或者是传统的OLTP应用。此外,对于需要保证数据一致性、需要标准SQL开发接口,或者需要实时数据读写分析的应用,Trafodion也...
摘要:打造云中便捷版,强势对抗上周,为其增加了连接器,这样开发人员现在已经能够很轻松的在计算虚拟机上进行操作了,的预览版将使开发人员不用再花大力气去管理集群和文件系统。在此领域,和的竞争将更加激烈。但他同时表示这可能有问题。 1. Google打造云中Hadoop便捷版,强势对抗AWS上周,Google为其Google Cloud Platform增加了Hadoop 连接器,这样开发人员现在已经能...
阅读 2865·2021-11-23 09:51
阅读 3502·2021-09-06 15:00
阅读 2058·2019-08-30 15:53
阅读 3148·2019-08-23 16:44
阅读 835·2019-08-23 15:19
阅读 1277·2019-08-23 12:27
阅读 3563·2019-08-23 11:30
阅读 480·2019-08-23 10:33