资讯专栏INFORMATION COLUMN

基于Python爬取天眼查网站的企业信息

waltr / 2560人阅读

摘要:爬虫简介这是一个在未登录的情况下,根据企业名称搜索,爬取企业页面数据的采集程序注意这是一个比较简单的爬虫,基本上只用到了代理,没有用到其他的反反爬技术,不过由于爬取的数据比较多,适合刷解析技能的熟练度,所以高手勿进代码已经上传到上,有用还请

爬虫简介


这是一个在未登录的情况下,根据企业名称搜索,爬取企业页面数据的采集程序

注意: 这是一个比较简单的爬虫,基本上只用到了代理,没有用到其他的反反爬技术,不过由于爬取的数据比较多,适合刷解析技能的熟练度,所以高手勿进

代码已经上传到GitHub上,有用还请给个星

python版本:python2.7

编码工具:pycharm

数据存储:mysql

爬虫结构:广度爬虫

爬虫思路:

先获取需要采集信息的公司:

从数据库中获取

获取字段:etid,etname

将获取的数据存储的状态表中

从状态表中获取数据,并更新状态表

拼接初始URL:

将etname和初始url进行拼接,获得初始网址

将初始url放到一个列表中,获取HTML的时候如何出错,将出错的url放到另一个列表中,进行循环获取

请求解析初始一级页面:

验证查询的公司是否正确(??)

获取二级页面url

将二级url放到一个列表中,获取HTML的时候如何出错,将出错的url放到另一个列表中,进行循环获取

请求解析二级页面:

获取的信息待定

将公司的信息存储到数据库中:

建表

存储信息

所建的表:

企业主要信息: et_host_info

工商信息: et_busi_info

分支机构信息: et_branch_office

软件著作权信息: et_container_copyright_info

网站备案信息: et_conrainer_icp_info

对外投资信息: et_foreign_investment_info

融资信息: et_rongzi_info

股东信息: et_stareholder_info

商标信息: et_trademark_info

微信公众号信息:et_wechat_list_info

状态表: et_name_status

看一下部分的结果图:




文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/43471.html

相关文章

  • 这是一个爬虫—爬取天眼网站企业信息

    摘要:爬虫简介这是一个在未登录的情况下,根据企业名称搜索,爬取企业页面数据的采集程序注意这是一个比较简单的爬虫,基本上只用到了代理,没有用到其他的反反爬技术,不过由于爬取的数据比较多,适合刷解析技能的熟练度,所以高手勿进代码已经上传到上,有用还请 爬虫简介 showImg(https://segmentfault.com/img/remote/1460000018233494?w=1088&...

    xeblog 评论0 收藏0
  • Python 爬虫数据写入csv文件中文乱码解决以及天眼爬虫数据写入csv

    摘要:爬虫数据写入文件中文乱码,用在中打开文件没有问题,但是用打开却出现了问题,以下为解决方法。 python爬虫数据写入csv文件中文乱码,用’utf-8‘在pycharm中打开文件没有问题,但是用excel打开却出现了问题,以下为解决方法。 (最近在练习爬虫,这个博文是对自己学习的记录和分享,...

    zone 评论0 收藏0
  • 首次公开,整理12年积累博客收藏夹,零距离展示《收藏夹吃灰》系列博客

    摘要:时间永远都过得那么快,一晃从年注册,到现在已经过去了年那些被我藏在收藏夹吃灰的文章,已经太多了,是时候把他们整理一下了。那是因为收藏夹太乱,橡皮擦给设置私密了,不收拾不好看呀。 ...

    Harriet666 评论0 收藏0
  • 1.2-知识图谱有什么用?

    摘要:知识图谱经过几年的发展已经得到广泛的应用。例如,某地区某行业连续出现了多笔逾期贷款,通过对行业和客户的知识图谱进行分析,可以及时发现该地区相关行业存在潜在风险的客户。 知识图谱经过几年的发展已经得到广泛的应用。当知识图谱遇上人工智能,更加突显出了它的优势和价值。 最先应用于搜索 ![用Google搜索泰姬陵]() 最典型的就是在谷歌搜索引擎里面应用。谷歌是在2012年率先提出来知识图...

    bergwhite 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<