资讯专栏INFORMATION COLUMN

使用Spark分析拉勾网招聘信息(一):准备工作

刘德刚 / 1765人阅读

摘要:本系列专属地址前言我觉得如果动笔就应该努力地把要说的东西表达清楚今后一段时间尝试下系列博客文章简单说如果心里想表达想分享的就适当规划组织下使其相对自成体系以便于感兴趣但可能刚好某个领域还不是很熟的人也能很好地入手系列文章我会努力避免过于主观

本系列专属github地址:https://github.com/ios122/spark_lagou

前言

我觉得如果动笔,就应该努力地把要说的东西表达清楚.今后一段时间,尝试下系列博客文章.简单说,如果心里想表达想分享的,就适当规划组织下,使其相对自成体系,以便于感兴趣但可能刚好某个领域还不是很熟的人,也能很好地入手.系列文章,我会努力避免过于主观化的描述,同时吸取以往的经验,尽量给每个系列的文章都设置一个多带带的 github 项目,供查阅参考.

Spark 系列文章规划

Spark系列,因为本人并非供职于大型数据公司,也未曾在较大数据集上实践过,所以内容可能仅供初级入门者参考.目前,我处理过的较大的数据集,也仅在百万条左右,但是也不得不惊叹 Spark 做为数据分析工具的便利性,100w条数据,在3台BMR服务器结点上,复杂查询一般在十秒以内.从数据分析的工具角度,我觉得 Spark 还是有必要了解的,大多数时候,基于数据的多个维度分析出的结论,可能比某些抽象的统计数据,能有说服力.

数据源: 拉勾网 iOS 职位最近一个月的公开招聘信息

以拉勾网 iOS 职位最近一个月的公开招聘信息作为样本.这是一个样本,到时我会具体说一下数据获取的方法和思路,还会奉上可用的脚本.

数据分析工具:Spark.

Spark是主要分析工具.我前一段时间,看了那本<>,然后开始了Spark的学习.自己感觉 Spark,可能更符合自己目前阶段的需要--小规模数据的即时分析.

数据分析平台: 百度BMR

我会直接基于百度BMR来分析数据.至今,我没有试过自己搭建spark开发环境,也暂无打算研究.因为我觉得,大数据的分析,硬件还是挺贵的,好在现在有云平台,即开即用,用完释放掉即可.还有一个原因是,单机版的Spark和分布式的Spark,某些函数的行为还是有差异的.我看阿里云,也有类似的大数据分析平台,应该也是可以的.

准备事宜

实名认证的百度开发者账号,注册请到 https://login.bce.baidu.com 因为必须是实名认证的百度开发者账号,才可以创建 BMR 实例,没有账号,可能会影响到你观察文章的体验.因为这个实名认证要审核的,最好提前弄.

文章更新具体规划 使用Spark分析拉勾网招聘信息(一):准备工作

交代基本背景,动机与必要准别事宜等,为进一步文章铺垫.

使用Spark分析拉勾网招聘信息(二): 获取数据

使用脚本自动获取数据,会涉及数据源的分析,脚本编写思路,以及一个最终可用的脚本和实际采集的完整数据附件.

使用Spark分析拉勾网招聘信息(三): BMR 入门

主要讲解百度大数据平台BMR的基础操作与常用工具的使用.当然电脑性能较为强悍的童鞋,可以自己安装研究下Hadoop,Spark和Zeepline等工具.用BMR,比较省钱,按分钟计费,一小时 2块左右,我通常只是有感兴趣的数据题材时才开启.顺便插一句,以数据的视角,自由组合维度来观察某些自己关心的数据,真的看出来许多刷新自己认知的真实.不过,考虑到工具的可扩展性,我还是建议掌握下 BMR或者阿里的大数据平台的基础使用.

使用Spark分析拉勾网招聘信息(四): 几个常用的脚本与图片分析结果

这里,会结合数据结构,展示下数据分析与提取的基本思路,然后会选几个角度分析下数据.方法是根本,简单了解下,再多看看 spark 和 scala 文档,我相信大家是可以自由使用Spark来分析自己感兴趣的数据的.


版权声明: iOS122 颜风 署名系列文章,每日 7:20 首发于微信公众号 iOS122gg,其他平台次日10点更新.除各大博客平台的iOS122官方专栏外,其他任何用途的转载与使用,请务必注明出处!

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/8216.html

相关文章

  • 使用Spark分析勾网招聘信息(三): BMR 入门

    摘要:简述本文意在以最小的篇幅来帮助对大数据和感兴趣的小伙伴能尽快搭建一个可用的开发环境力求言简意赅文章不敢自称的最佳实践但绝对可以帮助初学者迅速入门能够专心于本身的学习和实践不服的童鞋可以先自己折腾下再返回来读这篇文章哈创建实例假定你已经有了一 简述 本文,意在以最小的篇幅,来帮助对大数据和Spark感兴趣的小伙伴,能尽快搭建一个可用的Spark开发环境.力求言简意赅.文章,不敢自称BMR...

    levinit 评论0 收藏0
  • 使用Spark分析勾网招聘信息(二): 获取数据

    摘要:要获取什么样的数据我们要获取的数据是指那些公开的可以轻易地获取地数据如果你有完整的数据集肯定是极好的但一般都很难通过还算正当的方式轻易获取单就本系列文章要研究的实时招聘信息来讲能获取最近一个月的相关信息已是足矣如何获取数据爬虫也是可以的作为 要获取什么样的数据? 我们要获取的数据,是指那些公开的,可以轻易地获取地数据.如果你有完整的数据集,肯定是极好的,但一般都很难通过还算正当的方式轻...

    caiyongji 评论0 收藏0
  • 新手向-爬取分析勾网招聘信息

    摘要:爱写作者爱写前言看了很多网站,只发现获取拉勾网招聘信息是只用方式就可以得到,应当是非常简单了。在环境下运行通过数据爬取篇伪造浏览器访问拉勾网打开浏览器,进入拉勾网官网,右键检查,调出开发者模式。 [TOC] 爱写bug(ID:icodebugs)作者:爱写bug 前言: ​ 看了很多网站,只发现获取拉勾网招聘信息是只用post方式就可以得到,应当是非常简单了。推荐刚接触数据分析...

    yimo 评论0 收藏0
  • 区块链招聘信息爬取与分析

    摘要:最近在研究区块链,闲来无事抓取了拉勾网上条区块链相关的招聘信息。拉勾网的反爬虫做的还是比较好的,毕竟自己也知道这种做招聘信息聚合的网站很容易被爬,而且比起妹子图这种网站,开发的技术水平应该高不少。 最近在研究区块链,闲来无事抓取了拉勾网上450条区块链相关的招聘信息。过程及结果如下。 拉勾网爬取 首先是从拉勾网爬取数据,用的requests库。拉勾网的反爬虫做的还是比较好的,毕竟自己也...

    kelvinlee 评论0 收藏0
  • Pyhton爬虫实战 - 抓取BOSS直聘职位描述 和 数据清洗

    摘要:然后准备再去抓下拉勾网的招聘数据,这也是个相对优秀的专业招聘网站了,数据也相当多,想当初找实习找正式工作,都是在这两个上找的,其他的网站几乎都没看。 原文地址:http://www.jtahstu.com/blog/s... Pyhton爬虫实战 - 抓取BOSS直聘职位描述 和 数据清洗 零、致谢 感谢BOSS直聘相对权威的招聘信息,使本人有了这次比较有意思的研究之旅。 由于爬虫持续...

    zhkai 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<