反爬经验与理论基础

liaosilzu2007 发布于2019-06-24 18:22 / 2313人阅读

摘要：事后策略指感知到有爬虫事件后，采取的封禁验证码等组合策略。三反爬架构什么样数据支撑平台通过埋点采集等方式接入各类维度的基础数据和第三方指纹，封装成统一的数据输出形式。

一、反爬体系要做什么

完整的反爬体系有三大部分工作要做：感知识别、策略分析、监控封禁。

（一）感知识别：

数据支撑：爬虫指纹、设备指纹、风险UA、IP库等，不同端指纹的mapping等。

数据感知，什么人，通过什么方式，用什么爬虫，在什么时间，爬取了我们什么内容。

（二）策略分析：

事前策略：通过技术手段，在源头使攻击者无法爬取。

事后策略：指感知到有爬虫事件后，采取的封禁、验证码等组合策略。

（三）识别封禁：

离线识别：通过数据埋点监控，可离线分析爬虫情况，实时性差，但对业务无任何影响。

在线识别：在线检测服务，在业务关键节点，调用在线检测服务，实时感知爬虫情况。

离线阻断：离线分析后，根据策略筛选出要封禁的IP、UA、Session、userid等，调用封禁服务统一封禁。

在线阻断：在线检测到爬虫行为后，直接调用封禁服务阻断爬虫。

二、反爬策略有哪些
（一）事前策略：

js计算：js添加简单的数学计算，要求浏览器计算结果之后，返回给后端校验计算结果，来识别是否是爬虫行为。

js生成动态url：

生成动态参数：访问页面，先返回js脚本，js生成一个新参数，加入原请求中，再访问，才可得到数据。

生成动态地址：访问页面，先返回js脚本，js生成新接口地址，再访问新接口，才可得到数据。

js生成动态页面：动态生成js标签

因为js对用户是可见的，所以要尽量提升攻击成本，要写难懂的js，比如大量使用eval和goto，比如做js混淆、js压缩等。

（二）事后策略：

阈值封锁

IP维度：常见，但有两个缺陷：容易误伤普通用户，容易被绕过。

Session或uid等维度：需要考虑不同业务的Session或uid逻辑，是否唯一稳定？是否非空？

UA维度：误杀非常严重，除非能准确识别爬虫UA。

设备指纹：PC、APP、小程序。

投毒：命中相应策略后，后端给前端反回一定比例的假数据。

验证码：图形、划动、短信、人脸、声纹。

加密：app参数加密，PC小程序前后端加密。前端加密需要做js混淆等处理。

三、反爬架构什么样

数据支撑平台：通过埋点、采集等方式接入各类维度的基础数据和第三方指纹sdk，封装成统一的数据输出形式。数据输出可以接口、db、log等不同形式。

数据分析平台；输入支撑数据，输出爬虫画像。

策略分析平台：输入爬虫画像，采取不同策略，输出策略分析结果。

上报阻断平台：输入策略分析结果，上报给运维，做阻断。

GPU云服务器云服务器理论基础深度学习理论基础机器学习理论基础 html基础理论

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/11993.html

反爬经验与理论基础

摘要：事后策略指感知到有爬虫事件后，采取的封禁验证码等组合策略。三反爬架构什么样数据支撑平台通过埋点采集等方式接入各类维度的基础数据和第三方指纹，封装成统一的数据输出形式。一、反爬体系要做什么完整的反爬体系有三大部分工作要做：感知识别、策略分析、监控封禁。（一）感知识别：数据支撑：爬虫指纹、设备指纹、风险UA、IP库等，不同端指纹的mapping等。数据感知，什么人，通过什么方式...

fobnn 2019-06-21 16:54 评论0 收藏0
精通Python网络爬虫(0):网络爬虫学习路线

摘要：以上是如果你想精通网络爬虫的学习研究路线，按照这些步骤学习下去，可以让你的爬虫技术得到非常大的提升。作者：韦玮转载请注明出处随着大数据时代的到来，人们对数据资源的需求越来越多，而爬虫是一种很好的自动采集数据的手段。那么，如何才能精通Python网络爬虫呢？学习Python网络爬虫的路线应该如何进行呢？在此为大家具体进行介绍。 1、选择一款合适的编程语言事实上，Python、P...

spacewander 2019-07-30 14:17 评论0 收藏0
小白也可以看会的破解抖音字体反爬

摘要：不过，字体反爬也没有用，毕竟我们会破哈哈。抖音的字体反爬是在一个分享个人主页的链接中，别的链接暂时没有测试，不过破了一个其他的也就破了。下载完之后我们可以用的一个工具包来查看字体映射。现在的网站，处处都是反爬，我们这些爬虫的经常需要和他们斗智斗勇，就看谁更厉害。这不，就连字体也弄成了反爬，而且还不止一个网站，常见的就有猫眼和汽车之家。不过，字体反爬也没有用，毕竟我们会破！哈哈。抖音...

Zoom 2019-07-31 09:59 评论0 收藏0
极简爬虫攻防战纪要

摘要：极简爬虫攻防战纪要爬虫是构建搜索引擎的基础负责抓取网页信息并对网页识别分类及过滤。爬虫方终于锁定了第一场战役的胜局由于断崖式技术的出现，反爬方在浏览器识别战役上望风披靡。经过反爬方的精心运作，逐渐有效削弱了敌方的攻势。极简爬虫攻防战纪要爬虫是构建搜索引擎的基础, 负责抓取网页信息并对网页识别、分类及过滤。我们熟识的电商、搜索、新闻及各大门户网站都有强大的爬虫集群在每...

elliott_hu 2019-08-26 14:06 评论0 收藏0
如何快速掌握Python数据采集与网络爬虫技术

摘要：通过本文的学习，可以快速掌握网络爬虫基础，结合实战练习，写出一些简单的爬虫项目。从技术手段来说，网络爬虫有多种实现方案，如。二网络爬虫技术基础在本次课中，将使用技术手段进行项目的编写。摘要：本文详细讲解了python网络爬虫，并介绍抓包分析等技术，实战训练三个网络爬虫案例，并简单补充了常见的反爬策略与反爬攻克手段。通过本文的学习，可以快速掌握网络爬虫基础，结合实战练习，写出一些简单的...

W4n9Hu1 2019-07-30 16:09 评论0 收藏0