Python爬虫理论之cookie验证，不回顾下历史，套路都不知道怎么来的！

fuyi501 发布于2021-09-07 09:59 / 3819人阅读

摘要：在发明之初，为了帮助服务器同步网页上的用户信息，同时保存用户操作，以此减轻服务器压力。由正在浏览的网站创建的被称为第一方。这些第三方怎么来的呢他们又有什么作用了。写在最后了解历史，有助于，我们更好的定位问题。

cookie在发明之初，为了帮助服务器同步网页上的用户信息，同时保存用户操作，以此减轻服务器压力。

没有cookie之前，人们还停留在像电视一样只能对网页进行点播，网站分辨不出是谁在通信。

题外话：第一代密码，属于通用性的密钥

有了cookie后，你就那个网页做交互了，这时才有了网站账号。

由正在浏览的网站创建的cookie被称为第一方cookie。

这个东西很重要，你要是不信邪，把这种第一方cookie给禁止了，

那么，恭喜你，回到了广播时代。

Python requests库默认是打开了cookie的。

– 检查cookie

import requestsfrom requests.cookies import RequestsCookieJarheaders = {    "Host": "accounts.douban.com",    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36",    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3",    "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8",    "Accept-Encoding": "gzip, deflate, br",    "Connection": "keep-alive"           }request_url = "https://accounts.douban.com/passport/login"res = requests.get(request_url, headers=headers)status_code = res.status_coderes_header = res.headersres_cookies = res.cookiescookie1111 = res.cookies.get_dict()                             # 格式化 字典形式输出cookie2222 = requests.utils.dict_from_cookiejar(res_cookies)    # 格式化 字典形式输出for cookie in res_cookies:    print(cookie.name+"/t"+cookie.value)print("响应状态码：", status_code)print("响应请求请求头：", res_header)print("响应cookies：", res_cookies)print("格式化cookie1111 :", cookie1111)print("格式化cookie2222 :", cookie2222)

– 到这里自带cookie说明白了！

接下来，我们引入一个概念第三方cookie，

使用空浏览器来看下效果。

清除浏览器cookie记录，也可以进行模拟。

进入一个网站csdn.net，

然后点击网页地址栏左侧的那个小锁就能看到这些信息。

正在访问的csdn.net以外

还有来自其它40个cookie，这些在你访问的网址之外的域名，创建的cookie就被称作，作为第三方cookie。

这些第三方cookie怎么来的呢？他们又有什么作用了。

你通过进入csdn.com，这个网站就访问了baidu.com的服务器了。

咱们按下F12进入浏览器的开发者模式中，观察一下网络结构。

仔细查看一下这个网站的加载，我们可以在它的目录中发现baidu.com来源，他使用了baidu.com提供的功能，编写进了自己的网站代码中。

– 我们在访问这个网站的过程中，也同时使用了百度为你提供的服务，那么这个服务是什么呢？

# 不得不提cookie的另外一个作用！ ## 除了可以绑定网页和用户的身份，还可以记录网页的浏览历史。 ### 这样就给 ==广告提供商== 机会，使用不同的代码模块，嵌入到不同的网站中，以此实行产品推荐。 ### 第三方cookie，它默默的，把你的喜好记录下来，在你进入其他网站时，再通过读取之前已经记录好的信息，这样就能对你进行个性化广告推荐。

禁用第三方cookie是不是就没有广告了？

这也是爬虫遇到最多的情况。

手动模拟一下，禁用第三方cookie，会发现验证码输入次数开始变得频繁了。

鉴于此，爬虫产生了另外一个工具selenium。

写在最后

1.了解历史，有助于，我们更好的定位问题。

2.很多博主只告诉你们，第二次爬去的时候需要携带cookie，对第三方cookie只字不提

import requestscookies="从网上复制的cookie值"cookies_dict={}for i in cookies.split("; ")：   cookies_dict[i.splict("=")[0]] = i.splict("=")[1]html=requests.get(url="",cookies=cookies_dict}

3.更高级的工具，学习，使用。

云服务器 GPU云服务器历史回顾 python爬虫cookie 短信怎么知道验证码不知道密码怎么退出云服务器

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/119407.html

知乎最新版模拟登陆详解，小白也能懂

摘要：模拟登陆知乎这个知乎的登陆也是坑满满，我也给踩了几个，这个就直接说坑吧，其他的就不多说了。以下内容仅交流学习，请勿用于非法用途如果你现在想模拟登陆知乎，会发现 fromdata 是一串加密的字符串 showImg(https://segmentfault.com/img/remote/1460000018245629); 看了之后是不是很痛苦？你是不是就想使用 selenium 来...

buildupchao 2019-08-23 15:23 评论0 收藏0
知乎最新版模拟登陆详解，小白也能懂

摘要：模拟登陆知乎这个知乎的登陆也是坑满满，我也给踩了几个，这个就直接说坑吧，其他的就不多说了。以下内容仅交流学习，请勿用于非法用途如果你现在想模拟登陆知乎，会发现 fromdata 是一串加密的字符串 showImg(https://segmentfault.com/img/remote/1460000018245629); 看了之后是不是很痛苦？你是不是就想使用 selenium 来...

xuxueli 2019-07-31 10:06 评论0 收藏0
大话爬虫的实践技巧

摘要：图意淫爬虫与反爬虫间的对决数据的重要性如今已然是大数据时代，数据正在驱动着业务开发，驱动着运营手段，有了数据的支撑可以对用户进行用户画像，个性化定制，数据可以指明方案设计和决策优化方向，所以互联网产品的开发都是离不开对数据的收集和分析，数 showImg(https://segmentfault.com/img/remote/1460000013428119?w=539&h=337)...

沈俭 2019-07-31 11:03 评论0 收藏0
大话爬虫的基本套路

摘要：有什么作用通过有效的爬虫手段批量采集数据，可以降低人工成本，提高有效数据量，给予运营销售的数据支撑，加快产品发展。因为信息是完全公开的，所以是合法的。 showImg(https://segmentfault.com/img/remote/1460000011359885?w=566&h=316);　　什么是爬虫？网络爬虫也叫网络蜘蛛，如果把互联网比喻成一个蜘蛛网，那么蜘蛛就是在...

Towers 2019-07-30 14:48 评论0 收藏0
首次公开，整理12年积累的博客收藏夹，零距离展示《收藏夹吃灰》系列博客

摘要：时间永远都过得那么快，一晃从年注册，到现在已经过去了年那些被我藏在收藏夹吃灰的文章，已经太多了，是时候把他们整理一下了。那是因为收藏夹太乱，橡皮擦给设置私密了，不收拾不好看呀。 ...

Harriet666 2021-09-10 10:51 评论0 收藏0