摘要:登录知乎后通过获取模拟登录登录知乎
</>复制代码
#encoding=utf8
import requests,time
#登录知乎后通过document.cookie获取cookie
cookie = "_zap=78503ecc-9420-482c-a747-5761a7c9de8c; _za=de220e47-6e79-4c2d-80c6-74a86eb567ce; _ga=GA1.2.932820854.1429357203; udid="xxxxxxxxxxx";"
Default_Header = {"X-Requested-With": "XMLHttpRequest",
"Referer": "http://www.zhihu.com",
"User-Agent": "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; "
"rv:39.0) Gecko/20100101 Firefox/39.0",
"Host": "www.zhihu.com",
"Cookie":cookie}
_session = requests.session()
_session.headers.update(Default_Header)
header = {"X-Requested-With": "XMLHttpRequest",
"Referer": "http://www.zhihu.com",
"User-Agent": "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; "
"rv:39.0) Gecko/20100101 Firefox/39.0",
"Host": "www.zhihu.com"}
url = "https://www.zhihu.com/noti7/stack/default?limit=10&r=1473558020498"
cookies={}
for line in cookie.split(";"):
name,value=line.strip().split("=",1)
cookies[name]=value
#r = requests.get(url, headers=Default_Header)
r = requests.get(url, headers=header,cookies=cookies)
#r = _session.get(url)
#print(r.content)
#print(cookies)
print(r.json())
#模拟登录
def login():
"""登录知乎"""
username = "xxx"
password = "xxx"
cap_content = _session.get("https://www.zhihu.com/captcha.gif?r="+str(int(time.time())*1000)+"&type=login").content
cap_file = open("cap.gif","wb")
cap_file.write(cap_content)
cap_file.close()
captcha = input("capture:")
data = {"email":username,"password":password,"captcha":captcha}
r = _session.post("https://www.zhihu.com/login/email", data)
print ((r.json())["msg"])
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/38175.html
摘要:下面我们传入多个参数构建一个来感受一下在这里我们通过四个参数构造了一个,即请求,在中指定了和,传递的参数用了和方法来转成字节流,另外指定了请求方式为。运行结果如下通过观察结果可以发现,我们成功设置了,以及。用于处理重定向。 上一篇文章:Python3网络爬虫实战---19、代理基本原理下一篇文章:Python3网络爬虫实战---21、使用Urllib:处理异常 学习爬虫,最初的操作便...
摘要:比如我们以知乎为例,直接利用来维持登录状态。测试后,发现同样可以正常登录知乎。上一篇文章网络爬虫实战基本使用下一篇文章网络爬虫实战正则表达式 上一篇文章:Python3网络爬虫实战---24、requests:基本使用下一篇文章:Python3网络爬虫实战---26、正则表达式 在前面一节我们了解了 Requests 的基本用法,如基本的 GET、POST 请求以及 Response...
摘要:爬虫和反爬虫就是一个猫和老鼠的游戏,道高一尺魔高一丈,两者反复纠缠。由于协议的无状态性,登录验证都是通过传递来实现的。通过浏览器登录一次,登录信息的是就会被浏览器保存下来。模块就是这样一个从浏览器提取保存的的工具。 showImg(https://segmentfault.com/img/bVbsjnC?w=741&h=488); 很多用Python的人可能都写过网络爬虫,自动化获取网...
摘要:前言利用实现抓取微博评论数据,废话不多说。让我们愉快地开始吧开发工具版本相关模块模块模块模块模块模块以及一些自带的模块。环境搭建安装并添加到环境变量,安装需要的相关模块即可。 ...
摘要:所以只要得到登录后的并必要时进行更新,服务器就会认定其为登录状态。看看人家知乎,加密到连名字都没有了,还混淆,如何下手综上,适用于没有加密的登录或者加密算法比较简单并且不常更新的网站。遇上无解的加密算法要么手操拷贝,要么请大佬出场。 某些网站,登录和没登录,用户的权限是不一样的,帐号登录之后才能获取更多的信息。更有甚者一上来就是登录界面,不登录就不给你进去(如p站)。爬取目标不用登录固...
阅读 2460·2021-11-18 10:07
阅读 2405·2021-09-22 15:59
阅读 3163·2021-08-23 09:42
阅读 2373·2019-08-30 15:44
阅读 1262·2019-08-29 15:06
阅读 2439·2019-08-29 13:27
阅读 1303·2019-08-29 13:21
阅读 1524·2019-08-29 13:13