资讯专栏INFORMATION COLUMN

Scrapy爬取智联招聘

Tamic / 1671人阅读

摘要:之前接了一个活,做的功能是从智联招聘爬取招聘信息赚了几百块零花钱实现了一个,如图虽然比较丑,但是简洁明了,落落大方已经是我水平的天花板了具体功能说明就不了,大家都能看懂的。。。。智联招聘链接网页是这个样子的,反爬虫不强。

之前接了一个活,做的功能是从智联招聘爬取招聘信息
赚了几百块零花钱
实现了一个GUI,如图:

虽然比较丑low,但是简洁明了,落落大方(已经是我水平的天花板了)
具体功能说明就不了,大家都能看懂的。。。。
智联招聘链接

网页是这个样子的,反爬虫不强。
还实现了一个功能,就是定时发送邮件
如图:

具体功能说明就不了,大家都能看懂的。。。。
接下来就要开源代码了,本来想上传文件,但是发现思否不支持(好像其他博客也不行。。。。。)
所以准备发到github上了。
Github链接呢

顺便说一下思路:
网页参数jl是控制地区的

#下拉列表(地区)
area={
    "全国": 489,
    "北京": 530,
    "上海": 538,
    "深圳": 765,
    "广州": 763,
    "天津": 531,
    "成都": 801,
    "杭州": 653,
    "武汉": 736,
    "大连": 600,
    "南京": 635,
    "苏州": 639,
    "西安": 854,
}

kw参数就是搜索关键词
https://sou.zhaopin.com/?jl=6...

def start_requests(self):发送请求
def parse(self, response):解析列表,发送子请求(为了获取详情)
def re_parse(self, response):解析具体内容

最后,网页时动态渲染的,所以在middleware加了一个selenium,毕竟scrapy本身不支持动态渲染。但这也破坏了scrapy的异步结构,所以,速度不是很理想,但够用。

详情的话,具体看代码吧。乏了。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/43590.html

相关文章

  • python爬虫招聘网站(智联

    摘要:年月日爬取,爬虫代码不知道是否失效文章目录爬虫目标具体过程源码爬虫目标要求搜索大数据专业,爬相关公司的招聘信息。 2021年10月7日爬取,爬虫代码不知道是否失效 ...

    keelii 评论0 收藏0
  • node.js 89行爬虫爬取智联招聘信息

    摘要:智联其实一共写了两次,有兴趣的可以在源码看看,第一版的是回调版,只能一次一页的爬取。 写在前面的话,    .......还是不写了,直接上效果图。附上源码地址 github.lonhon showImg(https://segmentfault.com/img/bVUM3F?w=714&h=543);showImg(https://segmentfault.com/img/bVUM...

    _ivan 评论0 收藏0
  • node.js来爬取智联全国的竞争最激烈的前十岗位

    摘要:项目分析爬取智联网站上的全国的竞争最激烈三个月内前十的岗位。模块专为服务器设计的核心的快速,灵活和精益的实现。核心代码发起请求获取到的内容放到模块遍历是通过分析页面结构得到的打印数据执行就会得到如下结果。 node爬虫 什么是爬虫呢,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。为什么选用node呢,因为我是前端,当然要用js实现。 项目分析 爬取http://top.zh...

    Pandaaa 评论0 收藏0
  • 智联招聘数据爬取准备(1)-智联招聘搜索列表源码解析

    摘要:网页源码解析智联招聘搜索列表一开始必须要解析智联招聘搜索列表页,从这里更方便实现各种深层级数据抓取。显示不同源码也不同,尽量选列表模式,源码更好解析。 网页源码解析 - 智联招聘搜索列表 一开始必须要解析智联招聘搜索列表页,从这里更方便实现各种深层级数据抓取。网页地址是:http://sou.zhaopin.com/jobs/searchresult.ashx 搜索参数 智联招聘的服务...

    VPointer 评论0 收藏0
  • 智联招聘数据爬取准备(2)-招聘信息页面及企业主页源码解析

    摘要:网页源码解析智联招聘信息页面根据招聘列表里面跳转过来的详细招聘信息页面。巨优信息是法国阿尔卡特朗讯公司企业通信系统全国金牌代理商,同时也是华为思科等国际知名品牌的核心合作伙伴。主页是智联招聘里唯一能够让企业自己定制的页面了。 网页源码解析 - 智联招聘信息页面 根据招聘列表里面跳转过来的详细招聘信息页面。爬虫再根据这里进行关键信息提取。相比于搜索列表页来说,这页内容很简单,而我们需要的...

    he_xd 评论0 收藏0

发表评论

0条评论

Tamic

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<