资讯专栏INFORMATION COLUMN

Spark 学习笔记

zhoutk / 2301人阅读

摘要:安装从官网下载最新版本的发布。安装完成后可以使用来测试是否安装成功。在解压后的目录使用第一个程序是分析日志,中的。代码如下中的所有转换都是惰性的,只有发生一个要求返回结果给的动作时,这些转换才会被执行。资源官网知乎精华答案编程指南版

安装

从官网下载最新版本的发布。目前是1.1.0

安装Java和JDK。安装完成后可以使用java -version来测试是否安装成功。

在spark解压后的目录使用./sbt/sbt --assembly

Hello World
第一个程序是分析Nginx日志,中的http response code。代码如下:

from pyspark import SparkContext

logFile = "20141010.log"

sc = SparkContext("local", "Hello Spark")
logData = sc.textFile(logFile).cache()

counts = logData.map(lambda line: line.split()[8]).map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b)

counts.saveAsTextFile("spark_results")

Debug Shell

./spark-1.1.0/bin/pyspark

Submit File

./bin/spark-submit  --master local[4]   SimpleApp.py

Notes

Spark中的所有转换都是惰性的,只有发生一个要求返回结果给Driver的动作时,这些转换才会被执行。

资源
Spark官网
CSDN Spark
知乎精华答案
Spark编程指南(Python)版

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/39089.html

相关文章

  • Spark学习笔记之相关记录

    摘要:编程指南例子集群模式与如何部署集群模式提交部署应用如何监控算子如何配置,有哪些配置选项配置大全提示默认端口端口调优 编程指南:http://spark.apache.org/docs/... ApiDoc: http://spark.apache.org/docs/... 0、例子 http://spark.apache.org/examp... 1、集群模式与如何部署? 集...

    daydream 评论0 收藏0
  • elasticsearch学习笔记高级篇(十二)——掌握phrase matching搜索技术

    摘要:什么是近似搜索假设有两个句子适用搜索只能搜索到包含和的但是不知道和是不是离得很近。实际举一个例子对于假设我们要用匹配到。加上之后虽然是近似匹配可以搜索到很多结果,但是距离越近的会优先返回,也就是相关度分数就会越高。 1、什么是近似搜索 假设有两个句子 java is my favourite programming langurage, and I also think spark i...

    kgbook 评论0 收藏0
  • Spark综合学习笔记(三)搜狗搜索日志分析

    摘要:学习致谢一数据数据网站二需求针对用户查询日志数据中不同字段,使用读取日志数据,封装到数据集中,调用函数和函数进行处理不同业务统计分析三分词工具测试使用比较流行好用的中文分区面向生产环境的自然语言处理工具包,是由一系列模 ...

    AZmake 评论0 收藏0
  • 学习笔记TF065:TensorFlowOnSpark

    摘要:启动,在启动主函数。文件是训练主程序,部署步骤为在执行每个进程保留一个端口启动主函数训练预测关闭计算节点参数服务节点预测命令还可以运行及在集群采用模式运行。 Hadoop生态大数据系统分为Yam、 HDFS、MapReduce计算框架。TensorFlow分布式相当于MapReduce计算框架,Kubernetes相当于Yam调度系统。TensorFlowOnSpark,利用远程直接内...

    2json 评论0 收藏0
  • 学习笔记TF065:TensorFlowOnSpark

    摘要:启动,在启动主函数。文件是训练主程序,部署步骤为在执行每个进程保留一个端口启动主函数训练预测关闭计算节点参数服务节点预测命令还可以运行及在集群采用模式运行。 Hadoop生态大数据系统分为Yam、 HDFS、MapReduce计算框架。TensorFlow分布式相当于MapReduce计算框架,Kubernetes相当于Yam调度系统。TensorFlowOnSpark,利用远程直接内...

    XBaron 评论0 收藏0

发表评论

0条评论

zhoutk

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<