资讯专栏INFORMATION COLUMN

Python爬虫教学(写给入门的新手) 一

zone / 895人阅读

摘要:在不懂和等协议的情况下,我直接打个比方来解释一下什么是请求,以浏览器为例,人在浏览器输入,然后敲击键,直到页面出现,整个过程,我们可以抽象为我们向百度服务器发起的一次请求。更专业,更详细的解释,自己去百度学习吧。

前言

  刚学完python基础,想学习爬虫的新手,这里有你想要的东西。
  本文着重点在于教新手如何学习爬虫,并且会以外行人的思维进行形象地讲解。最近我一兄弟想学,我就想写个教学给他,然后想不如分享到网络上,给热爱学习的人们一起学习探讨。各位大神路过,如发现文章中有不妥之处,敬请指出,毕竟我最近刚开始学会撰写技术文章。

环境安装

python3.7.1

pip install requests
pip install beautifulsoup4
pip install lxml
技术讲解 requests库

  requests一般用于发起http请求,并且拿到请求的结果。http常用的请求有两种,GET和POST,爬虫主要用的是GET请求。
  在不懂http,https和dns,TCP/IP等协议的情况下,我直接打个比方来解释一下什么是GET请求,以360浏览器为例,人在360浏览器输入www.baidu.com,然后敲击enter键,直到页面出现,整个过程,我们可以抽象为我们向百度服务器发起的一次GET请求。
  更专业,更详细的解释,自己去百度学习吧。
  如何使用requests库来模拟浏览器的行为来获取页面内容呢?
示例代码如下

import requests
web = requests.get("https://www.baidu.com")  #向百度发起一次get请求,返回请求结果的实体类
print(web.status_code)    #请求返回的状态码,200是OK,404是页面不存在,500是错误,更多自己百度搜索
print(type(web.content))    #页面内容的数据类型是bytes,因此需要解码
print(type(web.content.decode()))
print(web.content.decode())    #解码之后,得到的页面内容是结构化的字符串

输出如下


  这样看起来,我们获取到的页面内容不是我们在浏览器看到的图形化界面,而是字符串,更像是一些代码。如果你学过html和css那就不用多说了。没学过也不要紧,现在可以简单学一下,也就花几分钟了解一下就够用了。
  html是一种标记语言,可以被浏览器执行,然后呈现出可视化的图形界面。如果你把web.content.decode()这一串字符串保存在test.html里,然后双击打开,你会看到图形化界面的,只不过有些图片可能显示不了,这里就不细说了。
  html其实很好理解,不要想得太复杂,就是一段有规律的格式化的文本。
  其基本格式就是


...
...


  html文本的标签一般都是成双成对,有始有终的,比如和是一队,千万不能拆散,拆散就乱套了。少数除外比如
是换行用的,可以不用配对。
这里我们主要讲body标签,网页的主要内容都是在这个标签里显示的,比如标题,段落,图片等
在test.html里我们写入一下代码并且保存。



我的网站

这是我的网站

效果就是


html更多标签所代表的意义可以去这里学习http://www.runoob.com/html/ht...

beautifulsoup4库

  bs4(简称)库是用于解析格式化文本,提取数据用的库。
我们利用requests库的get函数拿到网页的内容是一段格式化的字符串,接下来就可以用bs4来解析它。
解析的示例代码如下

from bs4 import BeautifulSoup
html = """

我的网站

这是我的网站

""" #从网页拿到html的格式化的字符串,保存到html里 soup = BeautifulSoup(html, "lxml") #使用lxml解析器来解析文本,html和xml格式是类似的 print(soup.find_all("h1")) #使用find_all函数来找所有的h1标签,返回的结果是数组 print(soup.find_all("p")) #找所有的p标签,返回的结果是数组

运行结果如图

更复杂一点的,比如

from bs4 import BeautifulSoup
html = """

我的网站

这是我的网站

测试1
测试2
""" soup = BeautifulSoup(html, "lxml") div_tags = soup.find_all(name="div", attrs={"class": "test-item"}) for tag in div_tags: print(type(tag)) print(tag) print(tag.string) print(tag.attrs, " ")

运行结果是


  注意,tag保存的不是字符串,而是bs4模块中的一个标签实体类,我们主要需要知道它的attrs属性和string属性,方便我们拿到一些我们想要的文本和信息,比如a标签的href属性就保存在attrs里。

总结

  本文主要讲了如何使用requests获取网页文本内容,以及如何解析html文本,更多更好用的爬虫库,下节课看情况再讲。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/43505.html

相关文章

  • 【微信小程序爬虫】表情包小程序图文视频教学,从零写起,保姆教程!!!

    摘要:文章目录前言爬取分析视频教学成果展示福利入门到就业学习路线规划小白快速入门爬虫路线前言皮皮虾一个沙雕而又有趣的憨憨少年,和大多数小伙伴们一样喜欢听歌游戏,当然除此之外还有写作的兴趣,,日子还很长,让我们一起加油努力叭话 ...

    coordinate35 评论0 收藏0
  • 【精华分享】:转行数据分析份学习清单

    摘要:数据分析的发展方向一般有商业方向,行业分析业务方向,和机器学习数据挖掘方向。机器学习的书籍推荐统计学习方法,机器学习,机器学习实战三本书。 作者:xiaoyu 微信公众号:Python数据科学 知乎:python数据分析师 上一篇主要分享了博主亲身转行数据分析的经历: 【从零学起到成功转行数据分析,我是怎么做的?】 本篇继上一篇将分享转行数据分析的一些经验和学习方法,看完这篇你将会解...

    suemi 评论0 收藏0
  • 写给在迷茫中前行前端学习/工作者

    摘要:我从今年的月份开始在知乎上连续回答前端开发相关的问题,至今已有将近三个月,回顾写过的一百多条回答,不少是给迷茫的前端工作者的建议。今天我把我的思考提炼整理成文,希望能给予在迷茫中前行中的前端学习工作者一些有用的建议。 本文首发于知乎专栏——前端指南作者:Mark MFS老师转载请注明来源。 我从今年的2月份开始在知乎上连续回答前端开发相关的问题,至今已有将近三个月,回顾写过的一百多条回...

    罗志环 评论0 收藏0
  • 前端开发-从入门到Offer - 收藏集 - 掘金

    摘要:一些知识点有哪些方法方法前端从入门菜鸟到实践老司机所需要的资料与指南合集前端掘金前端从入门菜鸟到实践老司机所需要的资料与指南合集归属于笔者的前端入门与最佳实践。 工欲善其事必先利其器-前端实习简历篇 - 掘金 有幸认识很多在大厂工作的学长,在春招正式开始前为我提供很多内部推荐的机会,非常感谢他们对我的帮助。现在就要去北京了,对第一份正式的实习工作也充满期待,也希望把自己遇到的一些问题和...

    sf_wangchong 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<