资讯专栏INFORMATION COLUMN

智联招聘数据爬取准备(2)-招聘信息页面及企业主页源码解析

he_xd / 2831人阅读

摘要:网页源码解析智联招聘信息页面根据招聘列表里面跳转过来的详细招聘信息页面。巨优信息是法国阿尔卡特朗讯公司企业通信系统全国金牌代理商,同时也是华为思科等国际知名品牌的核心合作伙伴。主页是智联招聘里唯一能够让企业自己定制的页面了。

网页源码解析 - 智联招聘信息页面

根据招聘列表里面跳转过来的详细招聘信息页面。爬虫再根据这里进行关键信息提取。
相比于搜索列表页来说,这页内容很简单,而我们需要的也不多。
不过需要注意的是,这里在职业信息之外还需要额外收集企业信息。
虽然另外有专门的代码跳转到企业主页去搜集信息,但是阅读源码后发现,每家VIP企业都可以自己定制网页,因此获取基本信息不方便。
所以企业基本信息要在这一页就收集齐(基本信息和企业主页里是完全一样的)。
下面开始简单分析下各处源码。

职位的头信息

销售、销售总监阿尔卡特数据、语音交换机(金牌代理商)

上海巨优信息科技有限公司

五险一金年底双薪绩效奖金年终分红带薪年假节日福利通讯补贴交通补助

可以直接用class*="inner-left"对头信息进行定位,然后在其中用h1标签为职位名称,h2标签为公司名称,class="welfare-tab-box"为福利信息。

职位基础信息
  • 职位月薪:8001-10000元/月
  • 工作地点:北京
  • 发布日期:2015-12-12
  • 工作性质:全职
  • 工作经验:1-3年
  • 最低学历:大专
  • 招聘人数:1人
  • 职位类别:销售经理

基础信息定位很简单,class^="terminal-ul"就够了。但是其中的每个信息没有标记,就只能用中文名称或者是顺序定位了。
信息内容全包含在strong标签里。

企业基本信息

上海巨优信息科技有限公司

定位的话,直接找到class中含有terminal-company的ul标签,然后按照li标签的顺序或者按照中文文字匹配到企业基本信息。

职位描述信息
任职要求:

1、1年以上IT行业的售经验,以通讯产品及服务器产品为主;
2、熟悉Siemens,NEC, Panasonic,Alcatel等PBX 机型,具有VOIP组网的相关销售经验;具备专业客户销售技巧;擅长与客户交流并能迅速整合客户所需资源;
3、熟悉思科、华为、Alcatel等数据交换机,具有相关销售经验;具备专业客户销售技巧;擅长与客户交流并能迅速整合客户所需资源; 
4、具备良好人际交往、市场策划、方案演讲、商务谈判,有强烈的赢单欲望,乐于陌生人交流,善于沟通,性格稳重、勤奋,能够承受较大销售业绩压力。
5、有销售同类语音交换机PBX、数据交换机 产品经验者优先。

岗位职责:

1、负责本地区维护老客户,拓展新市场,建立与扩大销售网络,提升销售业绩,完成总部或分公司交付的销售任务;
2、建立和维护本地区的客户关系,树立良好的公司口碑和品牌形象;
3、负责项目投标的运作,包括商务文件的起草和整个标书的制作与审定;负责商务合同的起草、签署和项目收款工作;
4、高标准地为客户提供优质服务和妥善处理客户投诉,以提高客户的满意度;
5、不断学习新知识与新技术,提升自身的专业能力与职业素质;
 
工作地点: 北京
工作地址:

北京市丰台区南三环西路16号搜宝商务中心2号楼2608室  查看职位地图

这个也好说,直接找到class="tab-inner-cont",然后自动排除所有标签,只获取文本信息就够了。
需要注意的是,源码里有2个class为tab-inner-cont的div,第1个是职位描述,第2个是企业简介。

企业简介

上面说过了,职位描述的class也为tab-inner-cont,所以获取的时候按顺序取值就好了。

网页源码解析 - 企业主页

智联招聘的企业主页分为2种:普通主页和VIP主页。VIP主页是智联招聘里唯一能够让企业自己定制的页面了。
这也就形成了千奇百怪的源码,分析起来并不容易。不过好在企业的基本信息,在招聘页面就已经获得了。
剩下唯一需要的信息就是企业的所有招聘信息了,也是非常重要的地方。
招聘信息在2种不同主页中,在源码中也分为了2种构建方式:

普通主页:正常的tag循环陈列

VIP 主页:在javascript中以list列表变量形式储存,并动态显示出来。

不过说回来,这也是不确定的解析,因为变化太多了,我只是随机打开了一些页面参考,不能代表全部。其实,最好的方法是在搜索页面直接按公司名称搜索,就得到他所有的招聘信息了。

那么下面开始进行2种源码的分析。

普通企业主页

职位名称 公司名称 职位月薪 工作地点 发布日期

数据库工程师 民信阿里信息咨询(北京)有限公司 15001-20000元 北京 2015-12-12
地点:北京 公司性质:民营 公司规模:1000-9999人 经验:3-5年 学历:本科 职位月薪:15001-20000元

岗位职责:
 1、公司核心数据库的管理,保证数据库正常运转和数据的安全;包括安装、配置、升级,数据备份、恢复,性能监控分析调优等;
2、参与开发设计,负责数据结构设计;
3、负责公司数据仓库的建设。 任职要求:
 1、具有三年以上MySQL工作经验;
2、精通MySQL数据库的运行机制和体系架构;
3、精...

可以看到,大容器是class中含有positionList的div。其中每条招聘信息都是class="positionListContent"的div,职位链接其实非常好找,找到class="jobName"的span标签获取其下a链接的href地址就好了。

VIP企业主页

实际上VIP企业主页也不全都是以下的构建方式,发现了一些少数的大公司,会完全不一样,通过代码来看,是真没什么办法的。。。

可以看到,该企业所有的招聘信息都存在Javascript脚本中的叫arrJobList的变量里了。变量的格式为:arrJobList=[[第1条招聘信息],[第2条招聘信息]],是列表嵌套列表。而每条招聘信息数据的内容为:["职位名称","招聘网址","所在地点","城市代码","行业名称","行业代码","企业名称","企业代码","发布日期","0","未知编号"]
其实这个地方,难点就在于怎么在python中获取Javascript脚本中的变量……

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/37661.html

相关文章

  • 智联招聘数据爬取准备(1)-智联招聘搜索列表源码解析

    摘要:网页源码解析智联招聘搜索列表一开始必须要解析智联招聘搜索列表页,从这里更方便实现各种深层级数据抓取。显示不同源码也不同,尽量选列表模式,源码更好解析。 网页源码解析 - 智联招聘搜索列表 一开始必须要解析智联招聘搜索列表页,从这里更方便实现各种深层级数据抓取。网页地址是:http://sou.zhaopin.com/jobs/searchresult.ashx 搜索参数 智联招聘的服务...

    VPointer 评论0 收藏0
  • node.js 89行爬虫爬取智联招聘信息

    摘要:智联其实一共写了两次,有兴趣的可以在源码看看,第一版的是回调版,只能一次一页的爬取。 写在前面的话,    .......还是不写了,直接上效果图。附上源码地址 github.lonhon showImg(https://segmentfault.com/img/bVUM3F?w=714&h=543);showImg(https://segmentfault.com/img/bVUM...

    _ivan 评论0 收藏0
  • Python爬虫实战之(二)| 寻找你的招聘信息

    摘要:感觉这和上面蓝色的链接差不多一样啊没错,上面的是北京和爬虫关键字进行编码之后的样子,而我们向服务器提交的正是上面那个编码之后的。 作者:xiaoyu微信公众号:Python数据科学知乎:Python数据分析师 最近总被智联招聘广发骚扰,烦死个人了简直。索性点进去看了看爬虫工程师现在市场需求到底怎么样了?发展前景如何?看完了之后感觉目前还不错,根据北京来看职位需求还是蛮多的,薪资也还行...

    APICloud 评论0 收藏0
  • Scrapy爬取智联招聘

    摘要:之前接了一个活,做的功能是从智联招聘爬取招聘信息赚了几百块零花钱实现了一个,如图虽然比较丑,但是简洁明了,落落大方已经是我水平的天花板了具体功能说明就不了,大家都能看懂的。。。。智联招聘链接网页是这个样子的,反爬虫不强。 之前接了一个活,做的功能是从智联招聘爬取招聘信息赚了几百块零花钱实现了一个GUI,如图:showImg(https://segmentfault.com/img/bV...

    Tamic 评论0 收藏0
  • python爬虫招聘网站(智联

    摘要:年月日爬取,爬虫代码不知道是否失效文章目录爬虫目标具体过程源码爬虫目标要求搜索大数据专业,爬相关公司的招聘信息。 2021年10月7日爬取,爬虫代码不知道是否失效 ...

    keelii 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<