资讯专栏INFORMATION COLUMN

Python利用Phantomjs抓取渲染JS后的网页

lowett / 2994人阅读

摘要:最近需要爬取某网站,无奈页面都是渲染后生成的,普通的爬虫框架搞不定,于是想到用搭一个代理。调用貌似没有现成的第三方库如果有,请告知小,漫步了一圈,发现只有提供了现成的方案。

最近需要爬取某网站,无奈页面都是JS渲染后生成的,普通的爬虫框架搞不定,于是想到用Phantomjs搭一个代理。

Python调用Phantomjs貌似没有现成的第三方库(如果有,请告知小2),漫步了一圈,发现只有pyspider提供了现成的方案。

简单试用了一下,感觉pyspider更像一个为新手打造的爬虫工具,好比一个老妈子,有时无微不至,有时喋喋不休。
轻巧的小工具应该更受人喜爱,我也怀着一点私心,可以带着我最爱的BeautifulSoup一块儿用,而不用再学PyQuery(pyspider用来解析HTML),更不用忍受浏览器写Python的糟糕体验(偷笑)。

所以花了一个下午的时间,把pyspider当中实现Phantomjs代理的部分拆了出来,独立成一个小的爬虫模块,希望大家会喜欢(感谢binux!)。

准备工作

你当然要有Phantomjs,废话!(Linux下最好用supervisord守护,必须保持抓取的时候Phantomjs一直处于开启状态)

用项目路径下的phantomjs_fetcher.js启动:phantomjs phantomjs_fetcher.js [port]

安装tornado依赖(使用了tornado的httpclient模块)

调用是超级简单的
pythonfrom tornado_fetcher import Fetcher

# 创建一个爬虫
>>> fetcher=Fetcher(
    user_agent="phantomjs", # 模拟浏览器的User-Agent
    phantomjs_proxy="http://localhost:12306", # phantomjs的地址
    poolsize=10, # 最大的httpclient数量
    async=False # 同步还是异步
    )
# 开始连接Phantomjs的代理,可以渲染JS!
>>> fetcher.phantomjs_fetch(url)
# 渲染成功后执行额外的JS脚本(注意用function包起来!)
>>> fetcher.phantomjs_fetch(url, js_script="function(){setTimeout("window.scrollTo(0,100000)}", 1000)")

老规矩,代码在小2的Github了,欢迎指正:PhantomjsFetcher

  

来自:建造者说

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/45350.html

相关文章

  • Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容

    摘要:,集搜客开源代码下载源开源网络爬虫源,文档修改历史,增补文字说明,增加第五章源代码下载源,并更换源的网址 showImg(https://segmentfault.com/img/bVvMn3); 1,引言 在Python网络爬虫内容提取器一文我们详细讲解了核心部件:可插拔的内容提取器类gsExtractor。本文记录了确定gsExtractor的技术路线过程中所做的编程实验。这是第二...

    ymyang 评论0 收藏0
  • Python3网络爬虫实战---2、请求库安装:GeckoDriver、PhantomJS、Aioh

    摘要:上一篇文章网络爬虫实战请求库安装下一篇文章网络爬虫实战解析库的安装的安装在上一节我们了解了的配置方法,配置完成之后我们便可以用来驱动浏览器来做相应网页的抓取。上一篇文章网络爬虫实战请求库安装下一篇文章网络爬虫实战解析库的安装 上一篇文章:Python3网络爬虫实战---1、请求库安装:Requests、Selenium、ChromeDriver下一篇文章:Python3网络爬虫实战--...

    Cristalven 评论0 收藏0
  • 如果有人问你爬虫抓取技术的门道,请叫他来看这篇文章

    摘要:未授权的爬虫抓取程序是危害原创内容生态的一大元凶,因此要保护网站的内容,首先就要考虑如何反爬虫。反爬虫的银弹目前的反抓取机器人检查手段,最可靠的还是验证码技术。机器人协议除此之外,在爬虫抓取技术领域还有一个白道的手段,叫做协议。 本文首发于我的个人博客,同步发布于SegmentFault专栏,非商业转载请注明出处,商业转载请阅读原文链接里的法律声明。 web是一个开放的平台,这也奠定了...

    raoyi 评论0 收藏0
  • Python爬虫实战(4):豆瓣小组话题数据采集—动态网页

    摘要:,引言注释上一篇爬虫实战安居客房产经纪人信息采集,访问的网页是静态网页,有朋友模仿那个实战来采集动态加载豆瓣小组的网页,结果不成功。 showImg(https://segmentfault.com/img/bVzdNZ); 1, 引言 注释:上一篇《Python爬虫实战(3):安居客房产经纪人信息采集》,访问的网页是静态网页,有朋友模仿那个实战来采集动态加载豆瓣小组的网页,结果不成功...

    blastz 评论0 收藏0
  • pyspider 爬虫教程(三):使用 PhantomJS 渲染JS 的页面

    摘要:英文原文在上两篇教程中,我们学习了怎么从中提取信息,也学习了怎么处理一些请求复杂的页面。在使用之前,你需要安装它安装文档。当你安装了之后,在运行模式的时就会自动启用了。使用当连上代理后,你就能通过在中添加的参数,开启使用抓取。 英文原文:http://docs.pyspider.org/en/latest/tutorial/Render-with-PhantomJS/ 在上两篇教程中...

    zhongmeizhi 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<