尝试用Python3爬取网页图片的过程记录

alin 发布于2019-07-31 11:12 / 476人阅读

摘要：上有一个关于下载百度贴吧里的美女图片的练习题，最近正好在学爬虫相关的知识，拿来练练手。这是我的目标网页。

Github上有一个关于下载百度贴吧里的美女图片的练习题，最近正好在学爬虫相关的知识，拿来练练手。
这是我的目标网页。
最开始的时候我在网上找到一个类似的案例，代码如下图：

稍作修改，运行之后得到七十多张图片，结果一看接近一半是用户头像～
方法太过简单粗暴，决定使用美丽的汤——BeautifulSoup重写一下（这汤真香）
观察了一下页面的源代码，发现所有用户发的图片都是class=“BDE_Image”的，这样就可以区分头像和帖子里的图片了，随便写写的代码：

from urllib.request import urlretrieve
from urllib.request import urlopen
from bs4 import BeautifulSoup

def get_image(url):
    html = urlopen(url).read().decode("utf-8")
    bsObj = BeautifulSoup(html, "lxml")
    myimg = bsObj.find_all("img", class_="BDE_Image")
    num = 1
    for img in myimg:
        link = img.get("src")
        pic_name = str(num) + ".jpg"
        urlretrieve(link, pic_name)
        print("Success!" + pic_name)
        num += 1

    return None

url = "http://tieba.baidu.com/p/2166231880"
get_image(url)

这次得到了49张图片

代码上传到了我的Github

交流群：435414286

GPU云服务器云服务器 python爬取网页图片爬取网页云盾爬取网页 java网页爬取数据

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/44783.html

Python3网络爬虫实战---36、分析Ajax爬取今日头条街拍美图

摘要：上一篇文章网络爬虫实战数据爬取下一篇文章网络爬虫实战动态渲染页面抓取本节我们以今日头条为例来尝试通过分析请求来抓取网页数据的方法，我们这次要抓取的目标是今日头条的街拍美图，抓取完成之后将每组图片分文件夹下载到本地保存下来。上一篇文章：Python3网络爬虫实战---35、 Ajax数据爬取下一篇文章：Python3网络爬虫实战---37、动态渲染页面抓取:Selenium 本节我们...

Leck1e 2019-07-31 10:36 评论0 收藏0
首次公开，整理12年积累的博客收藏夹，零距离展示《收藏夹吃灰》系列博客

摘要：时间永远都过得那么快，一晃从年注册，到现在已经过去了年那些被我藏在收藏夹吃灰的文章，已经太多了，是时候把他们整理一下了。那是因为收藏夹太乱，橡皮擦给设置私密了，不收拾不好看呀。 ...

Harriet666 2021-09-10 10:51 评论0 收藏0
爬虫 - 收藏集 - 掘金

摘要：在这之前，还是有必要对一些概念超轻量级反爬虫方案后端掘金前言爬虫和反爬虫日益成为每家公司的标配系统。爬虫修炼之道——从网页中提取结构化数据并保存（以爬取糗百文本板块所有糗事为例） - 后端 - 掘金欢迎大家关注我的专题：爬虫修炼之道上篇爬虫修炼之道——编写一个爬取多页面的网络爬虫主要讲解了如何使用python编写一个可以下载多页面的爬虫，如何将相对URL转为绝对URL，如何限速，...

1fe1se 2019-07-31 10:58 评论0 收藏0
Python3网络爬虫实战---35、 Ajax数据爬取

摘要：所以说，我们所看到的微博页面的真实数据并不是最原始的页面返回的，而是后来执行后再次向后台发送了请求，拿到数据后再进一步渲染出来的。结果提取仍然是拿微博为例，我们接下来用来模拟这些请求，把马云发过的微博爬取下来。上一篇文章：Python3网络爬虫实战---34、数据存储：非关系型数据库存储:Redis下一篇文章：Python3网络爬虫实战---36、分析Ajax爬取今日头条街拍美图 ...

Thanatos 2019-07-31 10:36 评论0 收藏0
Python3网络爬虫实战---19、代理基本原理

摘要：所以使用代理隐藏真实的，让服务器误以为是代理服务器的在请求自己。参考来源由于涉及到一些专业名词知识，本节的部分内容参考来源如下代理服务器维基百科代理百度百科上一篇文章网络爬虫实战和下一篇文章网络爬虫实战使用发送请求上一篇文章：Python3网络爬虫实战---18、Session和Cookies下一篇文章：Python3网络爬虫实战---20、使用Urllib：发送请求我们在做爬虫...

gougoujiang 2019-07-31 10:34 评论0 收藏0