{eval=Array;=+count(Array);}

问答专栏Q & A COLUMN

Spark SQL和Shark在架构上有哪些区别?

liaoyg8023liaoyg8023 回答0 收藏1
收藏问题

1条回答

alogy

alogy

回答于2022-06-28 14:15

Spark Shark |即Hive onSpark

a.在实现上是把HQL翻译成Spark上的RDD操作,然后通过Hive的metadata获取数据库里的表信息,Shark获取HDFS上的数据和文件夹放到Spark上运算.

b.它的最大特性就是快以及与Hive完全兼容

c.Shark使用了Hive的API来实现queryparsing和logic plan generation,最后的Physical Plan execution阶段用Spark代替Hadoop MR。

d.通过配置Shark参数,Shark可以自动在内存中缓存特定的RDD,实现数据重用,进而加快特定数据集的检索。

e.Shark通过UDF实现特定的数据分析学习算法,使得SQL数据查询和运算分析结合在一起,最大化RDD的重复使用。

Spark SQL

a.是基于Catalyst(翻译为催化剂)引擎的交互式大数据SQL技术,使用SchemaRDD来操作SQL,比Shark支持更过的查询表达式。

b.支持Hive|HBase|Oracle

评论0 赞同0
  •  加载中...

最新活动

您已邀请0人回答 查看邀请

我的邀请列表

  • 擅长该话题
  • 回答过该话题
  • 我关注的人
向帮助了您的网友说句感谢的话吧!
付费偷看金额在0.1-10元之间
<