{eval=Array;=+count(Array);}
Spark Shark |即Hive onSpark
a.在实现上是把HQL翻译成Spark上的RDD操作,然后通过Hive的metadata获取数据库里的表信息,Shark获取HDFS上的数据和文件夹放到Spark上运算.
b.它的最大特性就是快以及与Hive完全兼容
c.Shark使用了Hive的API来实现queryparsing和logic plan generation,最后的Physical Plan execution阶段用Spark代替Hadoop MR。
d.通过配置Shark参数,Shark可以自动在内存中缓存特定的RDD,实现数据重用,进而加快特定数据集的检索。
e.Shark通过UDF实现特定的数据分析学习算法,使得SQL数据查询和运算分析结合在一起,最大化RDD的重复使用。
Spark SQL
a.是基于Catalyst(翻译为催化剂)引擎的交互式大数据SQL技术,使用SchemaRDD来操作SQL,比Shark支持更过的查询表达式。
b.支持Hive|HBase|Oracle
0
回答0
回答10
回答2
回答0
回答2
回答0
回答0
回答0
回答0
回答