资讯专栏INFORMATION COLUMN

手把手教你用Python爬虫煎蛋妹纸海量图片

tuantuan / 973人阅读

摘要:我们的目标是用爬虫来干一件略污事情最近听说煎蛋上有好多可爱的妹子,而且爬虫从妹子图抓起练手最好,毕竟动力大嘛。服务器超载尤其是对给定服务器的访问过高时。个人爬虫,如果过多的人使用,可能导致网络或者服务器阻塞。

我们的目标是用爬虫来干一件略污事情

最近听说煎蛋上有好多可爱的妹子,而且爬虫从妹子图抓起练手最好,毕竟动力大嘛。而且现在网络上的妹子很黄很暴力,一下接受太多容易营养不量,但是本着有人身体就比较好的套路,特意分享下用点简单的技术去获取资源。
以后如果有机会,再给大家说说日本爱情动(大)作(雾)片的种子搜索爬取,多多关注。

请先准备作案工具

我们只准备最简单的

python 2.7.11

Google Chrome

安装的时候记得把pip带上,这样可以方便我们安装一些好用的包,来方便我们干坏事(学习)的过程。

需要用到的包

包括更佳符合人类的HTTP库--requests

用来解析html文件,快速提取我们需要的内容--beautifulsoup4

也可以用下面的命令快速安装
pip install requests
pip install beautifulsoup4

干正事从一次正常需求说起

每天在互联网上冲来冲去,浏览着大量的信息,观看这各种鼻血喷发的图片,于是作为新时代青年的我们,怎么能忍受被这些大量的垃圾信息充斥的互联网,我们要反抗,我们要下载!

请,看,下,图

当你在网上冲浪的时候遇到这样的图片,我就问你:
虐不虐?虐死了!
下不下?下!

开始吧获取图片的CSS选择器的规则

首先,我们需要定位我们需要的图片
(点开大图很清晰)

根据我们之前的准备的作案工具,使用chrome来访问网页
http://jandan.net/ooxx
然后打开开发者工具菜单 -> 更多工具 -> 开发者工具
看下图右边的神器
(图都不点开还学个毛线)

点击这个图标会出现块选择器,
鼠标移动我们感兴趣的部分
(点开大图,你就看得见点哪里了)

按照图片指示点击区域
(点开大图……我都懒得复述了)

右边神器中就会出现我们所需要的img标签
(开,大,图。科科)

查看之前最后一个以#comments开头的标签,
它包含了所有img的子标签。

下面让我们来一些神秘的事

打开cmd或者终端
输入python

输入以下神秘代码

现在偷偷看一下你的当前目录
是不是有很多(污)的图片

名词解释:网络爬虫

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
爬虫的使用对很多工作都是很有用的,但是对一般的社区,也需要付出代价。使用爬虫的代价包括:
网络资源:在很长一段时间,爬虫使用相当的带宽高度并行地工作。
服务器超载:尤其是对给定服务器的访问过高时。
质量糟糕的爬虫,可能导致服务器或者路由器瘫痪,或者会尝试下载自己无法处理的页面。
个人爬虫,如果过多的人使用,可能导致网络或者服务器阻塞。

是不是还不够
行踪不定的下期预告

看着上面规整的排版——前后有序、图文并茂,不就是练手爬虫技术最好的机会吗?今天就到这里了,读取下一页什么的就靠你自己探索,我将会在下个系列给你一个参考方法,希望你持续关注。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/44517.html

相关文章

  • 【“探探”为例】把手你用最少的代码实现各种“机器人”

    摘要:探探机器人,自动根据不同妹纸汉子颜值年龄等类型,喜欢忽略,欢迎各位先看一下实现的结果吧今天要讲的主题是使用脚本实现你自己想要自动操控的任意手机。 前言 之前写了篇文章:【全是干货】谈谈如何学习一项新技能,没有理论,全是实战,里面第五点提到用脚本玩探探,昨天花了一个小时实现了该功能。 Github:探探机器人,自动根据不同妹纸/汉子颜值、年龄等类型,喜欢、忽略,欢迎各位star 先看一下...

    worldligang 评论0 收藏0
  • 首次公开,整理12年积累的博客收藏夹,零距离展示《收藏夹吃灰》系列博客

    摘要:时间永远都过得那么快,一晃从年注册,到现在已经过去了年那些被我藏在收藏夹吃灰的文章,已经太多了,是时候把他们整理一下了。那是因为收藏夹太乱,橡皮擦给设置私密了,不收拾不好看呀。 ...

    Harriet666 评论0 收藏0
  • ❤️【python表白神器】把手你用代码浪漫追求对象!❤️(附完整源码+讲解)

    文章目录 一、前言二、演示看效果!三、网站制作四、部署网站五、二维码制作六、强烈推荐系列教程,建议学起来!!七、总结 一、前言 跟着我做,做成功就去表白,不介意的话表白成功给我打个赏。第一步是制作网站;第二步是部署网站,第三步是二维码制作。所有源码我都给了大家,如果你是小白,中途遇到不会的问题,可以主页加群联系我(粉丝群少的可怜) 二、演示看效果! b站演示(录了一部分): csdn作品展...

    Yang_River 评论0 收藏0
  • 实战 | 把手你用Python+OpenCV实现滑块验证码->自动拖动验证

    摘要:导读本文主要介绍如何使用实现滑块验证码自动拖动验证。背景介绍前几天在某网站下载代码时,跳转到滑块验证码界面,需要验证后才能下载,貌似这种验证方式现在很流行,所以打算用尝试如何让其自动拖动验证。 导读 本文主要介绍如何使用Python+OpenCV实现滑块验证码->自动拖动验证。 背景介绍 ...

    zhangrxiang 评论0 收藏0
  • 把手你用python制作属于你的第一个词云

    摘要:利用强大的语言制作属于自己的第一张词云。还有一件很有意思的事情,和的中文意思,都是蟒蛇。好,接下来进入正题,一步一步实现我们的第一张词云。但是我们如果要对中文进行分析,还必须要借助中文分词技术。 相信很多人在网上,或者是在一些报告或者ppt上,都看到过类似这种图片 showImg(https://segmentfault.com/img/bVQRr0?w=1920&h=919); 你可...

    happyfish 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<