资讯专栏INFORMATION COLUMN

用Spark实现日志解析

bang590 / 2559人阅读

摘要:当下数据矿工们谈论最多的,莫过于这星火了。今天也凑了把热闹,把一个日志解析的模块改成实现,算是体验之旅吧。总体感觉是一个不够可爱的姑娘,表现在语法似乎还没进入稳定状态,像列表扩展正则匹配这样基础的都能搜出一大堆眼花缭乱的做法。

当下数据矿工们谈论最多的,莫过于这「星火」了。Spark这名字,总让我联想起高中背过的单词书,从而印象不佳,哈哈。
今天也凑了把热闹,把一个日志解析的模块改成Spark实现,算是体验之旅吧。
刚开始我是用看起来很像Swift的Scala写的:SparkLogExtract.scala
然后我希望为这个程序增加参数传入的功能,然后我谷歌大法了,然后就没有然后了。
总体感觉Scala是一个不够可爱的姑娘,表现在:

语法似乎还没进入稳定状态,像列表扩展、正则匹配这样基础的API都能搜出一大堆眼花缭乱的做法。

没有break和continue的日子里我真的很想他们……

SBT对天朝子民真的很慢!

虽然提供了Shell,可提交还是要编译的好不。

长得不好看,函数没有「return」真的充满了违和感(咦,我怎么会用违和感这种高级词汇?)

当然要换回熟悉的Python!
接下来就爽快多了,除了map的函数传参遇到了困难(最后我恶心地用一个lambda调用普通函数搞定了),其他一帆风顺,运行速度和Scala一样快的(嘿嘿)。
代码请见:spark_log_extract.py
求赐星星!

  

来自:建造者说

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/37482.html

相关文章

  • Hadoop数据操作系统YARN全解析

    摘要:分享之前我还是要说下我自己创建的大数据交流群,不管是学生还是大神,都欢迎加入一起探讨总体上采用架构,如图所示,其中,被称为,被称为,负责对各个上的资源进行统一管理和调度。   为了能够对集群中的资源进行统一管理和调度,Hadoop 2.0引入了数据操作系统YARN。YARN的引入,大大提高了集群的资源利用率,并降低了集群管理成本。首先,YARN允许多个应用程序运行在一个集群中,并将资源...

    ASCH 评论0 收藏0
  • Spark Streaming 到 Apache Flink : 实时数据流在爱奇艺的演进

    摘要:在移动端,爱奇艺月度总有效时长亿小时,稳居中国榜第三名。爱奇艺的峰值事件数达到万秒,在正确性容错性能延迟吞吐量扩展性等方面均遇到不小的挑战。从到爱奇艺主要使用的是和来进行流式计算。作者:陈越晨 整理:刘河 本文将为大家介绍Apache Flink在爱奇艺的生产与实践过程。你可以借此了解到爱奇艺引入Apache Flink的背景与挑战,以及平台构建化流程。主要内容如下: 爱奇艺在实时计算方...

    econi 评论0 收藏0
  • Spark Streaming 到 Apache Flink : 实时数据流在爱奇艺的演进

    摘要:从到爱奇艺主要使用的是和来进行流式计算。海量数据实时在爱奇艺这边所有用户在端上的任何行为都会发一条日志到服务器上,总量超过千万。实时计算平台流任务平台流任务平台是爱奇艺实时计算的底层平台,支持流任务的提交运行与管理。 作者:陈越晨 整理:刘河 本文将为大家介绍Apache Flink在爱奇艺的生产与实践过程。你可以借此了解到爱奇艺引入Apache Flink的背景与挑战,以及平台构建...

    sunny5541 评论0 收藏0
  • Spark Streaming 到 Apache Flink : 实时数据流在爱奇艺的演进

    摘要:从到爱奇艺主要使用的是和来进行流式计算。海量数据实时在爱奇艺这边所有用户在端上的任何行为都会发一条日志到服务器上,总量超过千万。实时计算平台流任务平台流任务平台是爱奇艺实时计算的底层平台,支持流任务的提交运行与管理。 作者:陈越晨 整理:刘河 本文将为大家介绍Apache Flink在爱奇艺的生产与实践过程。你可以借此了解到爱奇艺引入Apache Flink的背景与挑战,以及平台构建...

    RebeccaZhong 评论0 收藏0
  • 大数据学习路线

    摘要:学习资料大数据最权威和最全面的学习资料就是官方文档。热门的大数据框架社区都比较活跃版本更新迭代也比较快,所以其出版物都明显滞后于其实际版本,基于这个原因采用书本学习不是一个最好的方案。 一、大数据处理流程 showImg(https://segmentfault.com/img/remote/1460000019667336?w=740&h=417);上图是一个简化的大数据处理流程图,...

    widuu 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<