网站信息采集

AZmake 发布于2019-07-30 15:32 / 1980人阅读

摘要：网站信息采集在编写爬虫之前可能需要先了解和搜集网站信息协议也称为爬虫协议机器人协议等的全称是网络爬虫排除标准，网站通过协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

网站信息采集

在编写爬虫之前可能需要先了解和搜集网站信息

robots.txt

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。一般的网站都会有这个文件。可以大致了解这个网站存在哪些限制

下面是知乎的robots.txt，可以通过https://www.zhihu.com/robots....

# 禁止今日头条和悟空问答爬虫抓取知乎网站内容
User-agent: *
Request-rate: 1/2 # load 1 page per 2 seconds
Crawl-delay: 10

Disallow: /login
Disallow: /logout
Disallow: /resetpassword
Disallow: /terms
Disallow: /search
Disallow: /notifications
Disallow: /settings
Disallow: /inbox
Disallow: /admin_inbox
Disallow: /*?guide*
Disallow: /people/*

其中User-agent说明了对哪些用户代理的限制，*表示限制所有的爬虫，还设置了请求速率每两秒访问一个页面，还设置了Crawl-delay，10秒的抓取延时，为了知乎的服务器不过载，我们最好遵循一下？？？？后面的Disallow则限制了访问的路径

用site:example.com估计网站的大小

你想抓取信息的网站有九成是被百度或者Google访问过的，通过这条命令可以快速的了解网站的大小，以便在设计爬虫的时候选择合适的方案

识别网站所用的技术

安装builtwith模块

pip install builtwith

使用方式

import builtwith as bw
res = bw.parse("https://www.zhihu.com/")
print(res)
# {"javascript-frameworks": ["React", "RequireJS"]}
res = bw.parse("https://www.upc.edu.cn/")
print(res)
# {"font-scripts": ["Font Awesome"], "javascript-frameworks": ["jQuery"]}
res = bw.parse("http://example.webscraping.com")
print(res)
#{"web-servers": ["Nginx"], "web-frameworks": ["Web2py", "Twitter Bootstrap"], "programming-languages": ["Python"], "javascript-frameworks": ["jQuery", "Modernizr", "jQuery UI"]}

可以得知知乎使用的是React框架，还能知道网站用什么语言开发的，服务器类型等等

个人爬虫经验收集地址

https://github.com/No-96/Feng...

云服务器 GPU云服务器信息采集网页信息采集信息采集程序数据信息采集系统

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/41308.html

一步一步教你如何搭建自己的视频聚合站

摘要：不过因为各个平台互相挖人的关系，导致关注的一些主播分散到了各个直播平台，来回切换有点麻烦，所以萌生了做一个视频聚合站的想法。后续我们会对这三个部分的功能做逐一展开说明。正则处理要求比较高，但是几乎能应对所有的情况，属于大杀器。前言作为一个炉石传说玩家，经常有事没事开着直播网站看看大神们的精彩表演。不过因为各个平台互相挖人的关系，导致关注的一些主播分散到了各个直播平台，来回切换有点麻...

justjavac 2019-07-30 14:20 评论0 收藏0
web 埋点实现原理了解一下

摘要：前言埋点，是网站分析的一种常用的数据采集方法。缺点是流量和采集的数据过于庞大，服务器性能压力山大，主流的就是这种实现方案。我们暂时放弃可视化埋点的实现，在手动埋点和无埋点上进行了尝试，为了便于描述，下文我会称采集脚本为。前言埋点，是网站分析的一种常用的数据采集方法。我们主要用来采集用户行为数据（例如页面访问路径，点击了什么元素）进行数据分析，从而让运营同学更加合理的安排运营计划。现...

MASAILA 2019-08-22 17:21 评论0 收藏0
高效采集数据的背后都有一个DTM

摘要：结论在本文中，我们学习了如何通过华为动态标签管理高效采集应用数据，驱动业务增长，我们还可以通过优化广告投放效果进行反欺诈分析等，以最大程度地提高营销人员的工作效率。华为动态标签管理（Dynamic Tag Manager，以下简称DTM），是一个动态标签代码管理系统（Tag Manager System），我...

lemon 2021-11-25 09:43 评论0 收藏0
前端到底是求职者的乐土还是日渐成为烫手的山芋？

摘要：前端技术是近年来一个新兴职业，是伴随着兴起而细分进去的行业。数据采集结果采集到前端工程师岗位招聘信息原始数据共万多条，考虑到时效性和真实性，最终筛选出条信息作为报告分析对象。所以说前端工作还是很好找的。 showImg(https://segmentfault.com/img/bVbeN9h?w=580&h=435);web前端技术是近年来一个新兴职业，是伴随着web兴起而细分进去的行...

hufeng 2019-08-23 10:40 评论0 收藏0