资讯专栏INFORMATION COLUMN

python爬虫招聘网站(智联)

keelii / 2324人阅读

摘要:年月日爬取,爬虫代码不知道是否失效文章目录爬虫目标具体过程源码爬虫目标要求搜索大数据专业,爬相关公司的招聘信息。

2021年10月7日爬取,爬虫代码不知道是否失效

爬虫目标

要求:搜索“大数据”专业,爬相关公司的招聘信息。列数不少于10列,行数不少于3000 。

目标:搜索“大数据”,爬取智联招聘 北京上海广州深圳天津武汉西安 职位名称,企业名称,薪资,什么市(区),学历要求,经验要求,公司规模,公司性质,工作类型,详情页链接https

具体过程

登录网站,搜索大数据,右键查看网页源代码

Ctrl+F搜索大数据工程师,发现数据都在网页源代码中


基本思路有了,可用正则直接在源码里匹配得到数据,也可以打开开发者工具抓包分析接口用scrapy爬。这篇博客用正则表达式匹配。

pycharm响应成功。

然后用正则写代码就行了。

源码

import reimport requestsimport timeheaders = {"User-Agent": "登陆后自己的user-agent",        "Cookie":"登陆后自己的cookie"   }for page in range(1,28):    #北京上海广州深圳天津武汉西安的url    url=f"https://sou.zhaopin.com/?jl=854&kw=%E5%A4%A7%E6%95%B0%E6%8D%AE&p={page}"    time.sleep(5)    #停顿5秒    response = requests.get(url, headers=headers).text    for i in range(30):    #每页有最多30条数据        name = re.findall(r""matchInfo":.*?"name":"(.*?)"", response)[i]  #工作名称        companyName = re.findall(r""companyName":"(.*?)"", response)[i]        cityDistrict=re.findall(r""cityDistrict":"(.*?)"",response)[i]        education=re.findall(r""education":"(.*?)"",response)[i]  #学历        salary60=re.findall(r""salary60":"(.*?)"",response)[i]  #薪资        workingExp=re.findall(r""workingExp":"(.*?)"",response)[i]  #经验要求        property=re.findall(r""property":"(.*?)"",response)[i] #公司性质        companySize=re.findall(r""companySize":"(.*?)"",response)[i] #公司规模        workType = re.findall(r""workType":"(.*?)"", response)[i] #工作类型        positionURL=re.findall(r""positionURL":"(.*?)"",response)[i]#详情页链接        f = open("zhilian.csv", "a", encoding="utf8")        f.write("{},{},{},{},{},{},{},{},{},{}/n".format(name, companyName, cityDistrict,education,salary60,workingExp,property,companySize,workType,positionURL))        f.close()

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/124522.html

相关文章

  • Python爬虫实战之(二)| 寻找你的招聘信息

    摘要:感觉这和上面蓝色的链接差不多一样啊没错,上面的是北京和爬虫关键字进行编码之后的样子,而我们向服务器提交的正是上面那个编码之后的。 作者:xiaoyu微信公众号:Python数据科学知乎:Python数据分析师 最近总被智联招聘广发骚扰,烦死个人了简直。索性点进去看了看爬虫工程师现在市场需求到底怎么样了?发展前景如何?看完了之后感觉目前还不错,根据北京来看职位需求还是蛮多的,薪资也还行...

    APICloud 评论0 收藏0
  • node.js 89行爬虫爬取智联招聘信息

    摘要:智联其实一共写了两次,有兴趣的可以在源码看看,第一版的是回调版,只能一次一页的爬取。 写在前面的话,    .......还是不写了,直接上效果图。附上源码地址 github.lonhon showImg(https://segmentfault.com/img/bVUM3F?w=714&h=543);showImg(https://segmentfault.com/img/bVUM...

    _ivan 评论0 收藏0
  • 简历大数据公司全员被抓,HR要注意什么?

    摘要:日前,简历大数据公司巧达科技被警方一锅端,高管和员工全部被带走。买卖简历,直接违法。三人累计贩卖个人简历万余份,智联招聘由此蒙受损失近 日前,简历大数据公司巧达科技被警方一锅端,高管和员工全部被带走。到底发生了什么? 一 、为什么公司全员被抓?3月14日团队被警方带走,有HR等非核心成员回家,但核心高管依然失...

    邱勇 评论0 收藏0
  • 智联招聘数据爬取准备(1)-智联招聘搜索列表源码解析

    摘要:网页源码解析智联招聘搜索列表一开始必须要解析智联招聘搜索列表页,从这里更方便实现各种深层级数据抓取。显示不同源码也不同,尽量选列表模式,源码更好解析。 网页源码解析 - 智联招聘搜索列表 一开始必须要解析智联招聘搜索列表页,从这里更方便实现各种深层级数据抓取。网页地址是:http://sou.zhaopin.com/jobs/searchresult.ashx 搜索参数 智联招聘的服务...

    VPointer 评论0 收藏0
  • 简历大数据公司全员被抓,HR要注意什么?

    摘要:日前,简历大数据公司巧达科技被警方一锅端,高管和员工全部被带走。买卖简历,直接违法。三人累计贩卖个人简历万余份,智联招聘由此蒙受损失近日前,简历大数据公司巧达科技被警方一锅端,高管和员工全部被带走。到底发生了什么?  一 、为什么公司全员被抓? 3月14日团队被警方带走,有HR等非核心成员回家,但核心高管依然失联中。3月25日,一位巧达科技前员工告诉燃财经。 在天眼查中北京...

    Loong_T 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<