Python爬虫笔记5-JSON格式数据的提取和保存

ztyzz 发布于2019-07-31 10:12 / 1840人阅读

摘要：如下运行结果小黑此外，如果需要将数据保存为文本的时候，还需要指定文件的编码格式为，比如将上面的数据里面有中文字符保存为文件，代码如下否则打开保存的文件，会有乱码。

环境：python-3.6.5

JSON

JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景，比如网站前台与后台之间的数据交互。
Python中自带了json模块，直接import json即可使用

官方文档：http://docs.python.org/librar...
Json在线解析网站：http://www.json.cn/#

json简单说就是javascript中的对象和数组，所以这两种结构就是对象和数组两种结构，通过这两种结构可以表示各种复杂的结构。

对象：对象在js中表示为{ }括起来的内容，数据结构为 { key：value, key：value, ... }的键值对的结构，在面向对象的语言中，key为对象的属性，value为对应的属性值，所以很容易理解，取值方法为对象.key 获取属性值，这个属性值的类型可以是数字、字符串、数组、对象这几种。

数组：数组在js中是中括号[ ]括起来的内容，数据结构为 ["Python", "javascript", "C++", ...]，取值方式和所有语言中一样，使用索引获取，字段值的类型可以是数字、字符串、数组、对象几种。

json模块使用

json模块提供了四个功能:dumps,dump,load,loads，用于字符串和python数据类型进行转换。

json.loads()
json.loads()方法将JSON文本字符串转换为Python对象，从JSON到Python的类型转化对照如下：

JSON	Python
object	dict
array	list
string	unicode
number(int)	int
number(real)	float
true	True
false	False
null	None

示例：

import json

# JSON文本字符串
str_list = "["a","b","c","d"]"
str_dict = "{"name":"小白","age":1000}"

# json.loads将文本字符串转化为JSON对象，在Python里就是Python对象了
data_list = json.loads(str_list)
data_dict = json.loads(str_dict)

print(type(data_list))
print(type(data_dict))
print(data_list)
print(data_dict)

运行结果：



["a", "b", "c", "d"]
{"name": "小白", "age": 1000}

说明：
JSON文本字符串中，数据应该用双引号括起来，不然会报错误，比如上面str_list和str_dict中的值都应该用双引号，数字就不用。

json.dumps
json.dumps()方法实现python类型转化为json字符串，返回一个str对象把一个Python对象编码转换成Json字符串。从Python到JSON的类型转化对照如下:

Python	JSON
dict	object
list,tuple	array
str	string
int, float, int- & float-derived Enums	number
True	true
False	false
None	null

示例：

import json

data_list = [1,2,3,4]
data_dict = {"name":"小黑","age":1000}

print(json.dumps(data_list))
print(json.dumps(data_dict))

运行结果：

[1, 2, 3, 4]
{"name": "u5c0fu9ed1", "age": 1000}

说明：dumps方法可以将Python数据类型转化为JSON文本字符串，但是可以看到当有中文的时候，转换后中文字符都变成Unicode字符，要输出中文需要设置dumps方法的参数ensure_ascii=True设置为ensure_ascii=False。如下：

print(json.dumps(data_dict,ensure_ascii=False))
# 运行结果：{"name": "小黑", "age": 1000}

此外，如果需要将数据保存为文本的时候，还需要指定文件的编码格式为utf-8，比如将上面的data_dict数据(里面有中文字符)保存为data.json文件，代码如下：

with open("data.json","w",encoding="utf-8") as f:
    f.write(json.dumps(data_dict,ensure_ascii=False))

否则打开保存的文件，会有乱码。

如果要处理的是文件而不是字符串，可以使用 json.dump()和json.load()来编码和解码JSON数据。比如：

# 写入数据到文件
data_list = [{"name":"小白"},{"name":"小黑"}]
with open("data2.json","w",encoding="utf-8") as f:
    json.dump(data_list,f,ensure_ascii=False)
# 从文件读取数据
with open("data2.json","r",encoding="utf-8") as f:
data = json.load(f)
print(data)

参考资料

菜鸟教程：Python3 JSON 数据解析

静觅崔庆才的个人博客： 5.1.2-JSON文件存储

GPU云服务器云服务器 json格式提取数据图像识别和图像提取的区别爬虫和python python和爬虫

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/43426.html

SegmentFault 技术周刊 Vol.30 - 学习 Python 来做一些神奇好玩的事情吧

摘要：学习笔记七数学形态学关注的是图像中的形状，它提供了一些方法用于检测形状和改变形状。学习笔记十一尺度不变特征变换，简称是图像局部特征提取的现代方法基于区域图像块的分析。本文的目的是简明扼要地说明的编码机制，并给出一些建议。 showImg(https://segmentfault.com/img/bVRJbz?w=900&h=385); 前言开始之前，我们先来看这样一个提问： pyth...

lifesimple 2019-07-30 14:22 评论0 收藏0
Python爬虫笔记1-爬虫背景了解

摘要：学习爬虫的背景了解。但是搜索引擎蜘蛛的爬行是被输入了一定的规则的，它需要遵从一些命令或文件的内容，如标注为的链接，或者是协议。不同领域不同背景的用户往往具有不同的检索目的和需求，搜索引擎无法提供针对具体某个用户的搜索结果。学习python爬虫的背景了解。大数据时代数据获取方式如今，人类社会已经进入了大数据时代，数据已经成为必不可少的部分，可见数据的获取非常重要，而数据的获取的方式...

oujie 2019-07-31 10:02 评论0 收藏0
Scrapy 框架入门简介

摘要：解析的方法，每个初始完成下载后将被调用，调用的时候传入从每一个传回的对象来作为唯一参数，主要作用如下负责解析返回的网页数据，提取结构化数据生成生成需要下一页的请求。 Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常...

Coding01 2019-07-30 15:39 评论0 收藏0
scrapy学习笔记

摘要：是最有名的爬虫框架之一，可以很方便的进行抓取，并且提供了很强的定制型，这里记录简单学习的过程和在实际应用中会遇到的一些常见问题一安装在安装之前有一些依赖需要安装，否则可能会安装失败，的选择器依赖于，还有网络引擎，下面是下安装的过程下安装安装 scrapy是python最有名的爬虫框架之一，可以很方便的进行web抓取，并且提供了很强的定制型，这里记录简单学习的过程和在实际应用中会遇到的一...

luzhuqun 2019-07-25 10:51 评论0 收藏0