Python利用Phantomjs抓取渲染JS后的网页

lowett 发布于2019-07-31 11:36 / 3222人阅读

摘要：最近需要爬取某网站，无奈页面都是渲染后生成的，普通的爬虫框架搞不定，于是想到用搭一个代理。调用貌似没有现成的第三方库如果有，请告知小，漫步了一圈，发现只有提供了现成的方案。

最近需要爬取某网站，无奈页面都是JS渲染后生成的，普通的爬虫框架搞不定，于是想到用Phantomjs搭一个代理。

Python调用Phantomjs貌似没有现成的第三方库（如果有，请告知小2），漫步了一圈，发现只有pyspider提供了现成的方案。

简单试用了一下，感觉pyspider更像一个为新手打造的爬虫工具，好比一个老妈子，有时无微不至，有时喋喋不休。
轻巧的小工具应该更受人喜爱，我也怀着一点私心，可以带着我最爱的BeautifulSoup一块儿用，而不用再学PyQuery（pyspider用来解析HTML），更不用忍受浏览器写Python的糟糕体验（偷笑）。

所以花了一个下午的时间，把pyspider当中实现Phantomjs代理的部分拆了出来，独立成一个小的爬虫模块，希望大家会喜欢（感谢binux！）。

准备工作

你当然要有Phantomjs，废话！（Linux下最好用supervisord守护，必须保持抓取的时候Phantomjs一直处于开启状态）

用项目路径下的phantomjs_fetcher.js启动：phantomjs phantomjs_fetcher.js [port]

安装tornado依赖（使用了tornado的httpclient模块）

调用是超级简单的

pythonfrom tornado_fetcher import Fetcher

# 创建一个爬虫
>>> fetcher=Fetcher(
    user_agent="phantomjs", # 模拟浏览器的User-Agent
    phantomjs_proxy="http://localhost:12306", # phantomjs的地址
    poolsize=10, # 最大的httpclient数量
    async=False # 同步还是异步
    )
# 开始连接Phantomjs的代理，可以渲染JS！
>>> fetcher.phantomjs_fetch(url)
# 渲染成功后执行额外的JS脚本（注意用function包起来！）
>>> fetcher.phantomjs_fetch(url, js_script="function(){setTimeout("window.scrollTo(0,100000)}", 1000)")

老规矩，代码在小2的Github了，欢迎指正：PhantomjsFetcher

来自：建造者说

GPU云服务器云服务器抓取js加载后的网页 python网页抓取 js 网页抓取 python抓取网页数据

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/45350.html

上一篇：你们以为我在学C++？其实我在学 Python

下一篇：为setup.py添加c/c++ 头文件或者库的搜索路径

相关文章

Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容

摘要：，集搜客开源代码下载源开源网络爬虫源，文档修改历史，增补文字说明，增加第五章源代码下载源，并更换源的网址 showImg(https://segmentfault.com/img/bVvMn3); 1，引言在Python网络爬虫内容提取器一文我们详细讲解了核心部件：可插拔的内容提取器类gsExtractor。本文记录了确定gsExtractor的技术路线过程中所做的编程实验。这是第二...

ymyang 2019-07-25 10:26 评论0 收藏0

Python3网络爬虫实战---2、请求库安装：GeckoDriver、PhantomJS、Aioh

摘要：上一篇文章网络爬虫实战请求库安装下一篇文章网络爬虫实战解析库的安装的安装在上一节我们了解了的配置方法，配置完成之后我们便可以用来驱动浏览器来做相应网页的抓取。上一篇文章网络爬虫实战请求库安装下一篇文章网络爬虫实战解析库的安装上一篇文章：Python3网络爬虫实战---1、请求库安装：Requests、Selenium、ChromeDriver下一篇文章：Python3网络爬虫实战--...

Cristalven 2019-07-31 10:33 评论0 收藏0

如果有人问你爬虫抓取技术的门道，请叫他来看这篇文章

摘要：未授权的爬虫抓取程序是危害原创内容生态的一大元凶，因此要保护网站的内容，首先就要考虑如何反爬虫。反爬虫的银弹目前的反抓取机器人检查手段，最可靠的还是验证码技术。机器人协议除此之外，在爬虫抓取技术领域还有一个白道的手段，叫做协议。本文首发于我的个人博客，同步发布于SegmentFault专栏，非商业转载请注明出处，商业转载请阅读原文链接里的法律声明。 web是一个开放的平台，这也奠定了...

raoyi 2019-08-21 17:55 评论0 收藏0

Python爬虫实战（4）：豆瓣小组话题数据采集—动态网页

摘要：，引言注释上一篇爬虫实战安居客房产经纪人信息采集，访问的网页是静态网页，有朋友模仿那个实战来采集动态加载豆瓣小组的网页，结果不成功。 showImg(https://segmentfault.com/img/bVzdNZ); 1，引言注释：上一篇《Python爬虫实战（3）：安居客房产经纪人信息采集》，访问的网页是静态网页，有朋友模仿那个实战来采集动态加载豆瓣小组的网页，结果不成功...

blastz 2019-07-25 10:36 评论0 收藏0

pyspider 爬虫教程（三）：使用 PhantomJS 渲染带 JS 的页面

摘要：英文原文在上两篇教程中，我们学习了怎么从中提取信息，也学习了怎么处理一些请求复杂的页面。在使用之前，你需要安装它安装文档。当你安装了之后，在运行模式的时就会自动启用了。使用当连上代理后，你就能通过在中添加的参数，开启使用抓取。英文原文：http://docs.pyspider.org/en/latest/tutorial/Render-with-PhantomJS/ 在上两篇教程中...

zhongmeizhi 2019-07-31 11:35 评论0 收藏0

发表评论

登陆后可评论

0条评论

lowett

男|高级讲师

我要关注我要私信

TA的文章
阅读更多

[C/C++ -STL]vector底层实现机制刨析

阅读 3160·2021-11-22 09:34

基于单片机的蓝牙控制窗帘电路系统

阅读 2575·2021-09-30 09:47

HaloCloud：45元/月/512MB內存/20GB空間/500GB流量/100Mbps-1Gb

阅读 1499·2021-09-03 10:32

TOTYUN：香港VPS/日本VPS/三网直连CN2线路/2核2G内存/10Mbps不限流量/$12

阅读 3810·2021-08-16 10:49

响应式布局方案

阅读 1843·2019-08-30 15:55

关于 vertical-align 的一些理解

阅读 2529·2019-08-30 15:52

小程序开发坑点总结

阅读 3375·2019-08-30 15:44

前端进阶之什么是BFC？BFC的原理是什么？如何创建BFC？

阅读 1418·2019-08-30 15:44

最新活动

资讯专栏INFORMATION COLUMN

上云采购季！| 2核2G4M爆款云服务器低至59元/年，更有多台、长期优惠，快来选购！

Python利用Phantomjs抓取渲染JS后的网页

相关文章

Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容

Python3网络爬虫实战---2、请求库安装：GeckoDriver、PhantomJS、Aioh

如果有人问你爬虫抓取技术的门道，请叫他来看这篇文章

Python爬虫实战（4）：豆瓣小组话题数据采集—动态网页

**pyspider 爬虫教程（三）：使用 PhantomJS 渲染带 JS 的页面**

发表评论

0条评论

lowett

男|高级讲师

TA的文章

[C/C++ -STL]vector底层实现机制刨析

基于单片机的蓝牙控制窗帘电路系统

HaloCloud：45元/月/512MB內存/20GB空間/500GB流量/100Mbps-1Gb

TOTYUN：香港VPS/日本VPS/三网直连CN2线路/2核2G内存/10Mbps不限流量/$12

响应式布局方案

关于 vertical-align 的一些理解

小程序开发坑点总结

前端进阶之什么是BFC？BFC的原理是什么？如何创建BFC？

最新活动