资讯专栏INFORMATION COLUMN

Python爬虫学习(一)

you_De / 2943人阅读

摘要:获得网页内容库自动爬取页面,自动提交相关请求要学会看官方文档这里通过方法构造了一个向服务器请求资源的对象返回的是对象对页面进行解析网络爬虫,盗亦有道协议中对于网络爬虫的相关标准规定一个通用的爬虫代码框架网络连接并不一定是成立的,对于异常情况

获得网页内容
The website is the API

Reqests
自动爬取html页面,自动提交相关请求

Requests: HTTP for Humans™ — Requests 2.21.0 documentation
要学会看官方文档

r = requests.get(url)
#这里通过get方法构造了一个向服务器请求资源的Request对象
#返回的是response对象

Beautful soup
对web页面进行解析

网络爬虫,盗亦有道
robots协议中对于网络爬虫的相关标准规定

一个通用的爬虫代码框架

网络连接并不一定是成立的,对于异常情况的处理非常重要

#如果状态码不是200,则产生异常
r.raise_for_status()
................................
#通用爬虫框架
import requests

def getHTMLText(url):
    try:
        r = requests.get(url, timeout = 30)
        r.raise_for_status()    #异常处理
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "Error"

if __name__ == "__main__":
    url = "http://www.baidu.com"
    print(getHTMLText(url))

HTTP协议

注意get与post的区别

python数据类型,字典dict
使用{} :的一系列键值对

robots协议
网站告知爬虫那些页面可以抓取,那些不能
网站根目录下的robot.txt文件

爬虫的header修改

url = "https://www.amazon.cn/dp/B078FFX8B6"
kv = {"User-agent" : "Mozilla/5.0"}
r = requests.get(url, headers = kv)

网络图片的爬取和存储

import requests
path = "/Users/apple/Pictures/a.jpg"
url = "http://img0.dili360.com/ga/M01/48/E0/wKgBzFmyTcaACuVKACZ-qAthuNY888.tub.jpg@!rw9"
r = requests.get(url)

with open(path, "wb") as f:
    f.write(r.content)

f.close()

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/59224.html

相关文章

  • 零基础如何学爬虫技术

    摘要:楚江数据是专业的互联网数据技术服务,现整理出零基础如何学爬虫技术以供学习,。本文来源知乎作者路人甲链接楚江数据提供网站数据采集和爬虫软件定制开发服务,服务范围涵盖社交网络电子商务分类信息学术研究等。 楚江数据是专业的互联网数据技术服务,现整理出零基础如何学爬虫技术以供学习,http://www.chujiangdata.com。 第一:Python爬虫学习系列教程(来源于某博主:htt...

    KunMinX 评论0 收藏0
  • Python爬虫学习路线

    摘要:以下这些项目,你拿来学习学习练练手。当你每个步骤都能做到很优秀的时候,你应该考虑如何组合这四个步骤,使你的爬虫达到效率最高,也就是所谓的爬虫策略问题,爬虫策略学习不是一朝一夕的事情,建议多看看一些比较优秀的爬虫的设计方案,比如说。 (一)如何学习Python 学习Python大致可以分为以下几个阶段: 1.刚上手的时候肯定是先过一遍Python最基本的知识,比如说:变量、数据结构、语法...

    liaoyg8023 评论0 收藏0
  • 首次公开,整理12年积累的博客收藏夹,零距离展示《收藏夹吃灰》系列博客

    摘要:时间永远都过得那么快,一晃从年注册,到现在已经过去了年那些被我藏在收藏夹吃灰的文章,已经太多了,是时候把他们整理一下了。那是因为收藏夹太乱,橡皮擦给设置私密了,不收拾不好看呀。 ...

    Harriet666 评论0 收藏0
  • 精通Python网络爬虫(0):网络爬虫学习路线

    摘要:以上是如果你想精通网络爬虫的学习研究路线,按照这些步骤学习下去,可以让你的爬虫技术得到非常大的提升。 作者:韦玮 转载请注明出处 随着大数据时代的到来,人们对数据资源的需求越来越多,而爬虫是一种很好的自动采集数据的手段。 那么,如何才能精通Python网络爬虫呢?学习Python网络爬虫的路线应该如何进行呢?在此为大家具体进行介绍。 1、选择一款合适的编程语言 事实上,Python、P...

    spacewander 评论0 收藏0
  • SegmentFault 技术周刊 Vol.30 - 学习 Python 来做些神奇好玩的事情吧

    摘要:学习笔记七数学形态学关注的是图像中的形状,它提供了一些方法用于检测形状和改变形状。学习笔记十一尺度不变特征变换,简称是图像局部特征提取的现代方法基于区域图像块的分析。本文的目的是简明扼要地说明的编码机制,并给出一些建议。 showImg(https://segmentfault.com/img/bVRJbz?w=900&h=385); 前言 开始之前,我们先来看这样一个提问: pyth...

    lifesimple 评论0 收藏0
  • SegmentFault 技术周刊 Vol.30 - 学习 Python 来做些神奇好玩的事情吧

    摘要:学习笔记七数学形态学关注的是图像中的形状,它提供了一些方法用于检测形状和改变形状。学习笔记十一尺度不变特征变换,简称是图像局部特征提取的现代方法基于区域图像块的分析。本文的目的是简明扼要地说明的编码机制,并给出一些建议。 showImg(https://segmentfault.com/img/bVRJbz?w=900&h=385); 前言 开始之前,我们先来看这样一个提问: pyth...

    SQC 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<