资讯专栏INFORMATION COLUMN

Python: xml转json

sourcenode / 2601人阅读

摘要:,实验用的文件我们使用爬虫实战爬取京东商品列表一文的结果文件,爬虫爬取的结果保存在京东手机列表文件中。,相关文档,即时网络爬虫项目内容提取器的定义,爬虫实战爬取京东商品列表,集搜客开源代码下载源,开源网络爬虫源,文档修改历史,首次发布

1,引言

GooSeeker早在9年前就开始了Semantic Web领域的产品化,MS谋数台和DS打数机是其中两个产品。对web内容做结构化转换和语义处理的主要路线是 XML -> RDF -> Ontology Engineering。所以这两款产品的输出信息是XML格式的,实现第一步:结构化转换。单纯作为一个网页采集器来说,输出XML格式也有好处,这是一种标准格式,后续的数据处理可以很容易地接入,任意发挥。

在web集成和网站前端领域,json越来越普遍,在Scrapy架构中,Scrapy dict数据结构本质上就是json,所以,由XML格式转换成JSON格式很有必要。

无论哪种编程语言,XML转Json都有很多现成的程序包,但是,就像前面说的,GooSeeker定义的XML格式主要用来做实体建模,有自己规定的一套语义结构描述标准。所以,不能直接使用现成的转换程序,或者需要在现成的转换程序上做些修改。

本文是一个实验过程,并没有考虑GooSeeker要求的语义结构,只是验证一下XML到Json的转换。

2,实验用的XML文件

我们使用《python爬虫实战(2):爬取京东商品列表》一文的结果文件,python爬虫爬取的结果保存在 京东手机列表_1.xml 文件中。内容如下图所示

下面针对这个结果文件先做个xml转json的测试,为提取器gsExtractor添加输出Json文件的功能做技术准备。

3,测试过程

测试使用的模块:xml.parsers.expat, json
测试输入: 以python爬虫实战(2):爬取京东商品列表一文的xml结果文件 京东手机列表_1.xml 作为输入
代码如下:

#! /usr/bin/env python
# -*- coding:utf-8 -*-
# xml 转 json
# xml2json.py
# Version 1.0

from xml.parsers.expat import ParserCreate
import json

class Xml2Json:
    LIST_TAGS = ["COMMANDS"]
    
    def __init__(self, data = None):
        self._parser = ParserCreate()
        self._parser.StartElementHandler = self.start
        self._parser.EndElementHandler = self.end
        self._parser.CharacterDataHandler = self.data
        self.result = None
        if data:
            self.feed(data)
            self.close()
        
    def feed(self, data):
        self._stack = []
        self._data = ""
        self._parser.Parse(data, 0)

    def close(self):
        self._parser.Parse("", 1)
        del self._parser

    def start(self, tag, attrs):
        assert attrs == {}
        assert self._data.strip() == ""
        self._stack.append([tag])
        self._data = ""

    def end(self, tag):
        last_tag = self._stack.pop()
        assert last_tag[0] == tag
        if len(last_tag) == 1: #leaf
            data = self._data
        else:
            if tag not in Xml2Json.LIST_TAGS:
                # build a dict, repeating pairs get pushed into lists
                data = {}
                for k, v in last_tag[1:]:
                    if k not in data:
                        data[k] = v
                    else:
                        el = data[k]
                        if type(el) is not list:
                            data[k] = [el, v]
                        else:
                            el.append(v)
            else: #force into a list
                data = [{k:v} for k, v in last_tag[1:]]
        if self._stack:
            self._stack[-1].append((tag, data))
        else:
            self.result = {tag:data}
        self._data = ""

    def data(self, data):
        self._data = data

if __name__ == "__main__":
    xml = open("京东手机列表_1.xml", "r", encoding="UTF-8").read()
    result = Xml2Json(xml).result;
    outputfile = open("京东手机列表_1.json", "w", encoding="UTF-8")
    outputfile.write(str(result))
    outputfile.close()        

在控制台运行: $ python xml2json.py

测试输出:京东手机列表_1.json。运行后在当前文件夹下可以看到新生成的json文件

4,接下来的工作

升级gsExtractor提取器类,加入新的方法,支持把提取结果从xml转换为json格式。

转换成的json结构必须符合GooSeeker要求的语义描述结构,为直接存入MongoDB做准备。

5,相关文档

1,Python即时网络爬虫项目: 内容提取器的定义
2,Python爬虫实战(2):爬取京东商品列表

6,集搜客GooSeeker开源代码下载源

1, GooSeeker开源Python网络爬虫GitHub源

7,文档修改历史

2016-06-17:V1.0,首次发布

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/110336.html

相关文章

  • Python: xmljson

    摘要:,实验用的文件我们使用爬虫实战爬取京东商品列表一文的结果文件,爬虫爬取的结果保存在京东手机列表文件中。,相关文档,即时网络爬虫项目内容提取器的定义,爬虫实战爬取京东商品列表,集搜客开源代码下载源,开源网络爬虫源,文档修改历史,首次发布 showImg(https://segmentfault.com/img/bVyf6R); 1,引言 GooSeeker早在9年前就开始了Semanti...

    _Suqin 评论0 收藏0
  • 将xmind文件成可编程数据类型

    摘要:转数据类型可以将转成数据类型,比如下面这么一个文件转换代码的示例例子中的数据结构如下通过遍历和就可以获取到中每个节点的数据。 前言 最近升级了一下xmind2testlink,顺带产生了一个中间轮子:xmindparser。 xmind是知名的思维导图软件,可以用来整理思路,设计测试案例等等。一旦完稿后软件本身支持导出为图片,PDF,Excel等等文件格式。免费版相对于Pro版能导出的...

    jackwang 评论0 收藏0
  • 大话爬虫的基本套路

    摘要:有什么作用通过有效的爬虫手段批量采集数据,可以降低人工成本,提高有效数据量,给予运营销售的数据支撑,加快产品发展。因为信息是完全公开的,所以是合法的。 showImg(https://segmentfault.com/img/remote/1460000011359885?w=566&h=316);   什么是爬虫? 网络爬虫也叫网络蜘蛛,如果把互联网比喻成一个蜘蛛网,那么蜘蛛就是在...

    Towers 评论0 收藏0
  • 中文维基百科文本数据获取与预处理

    摘要:下载数据方法使用官方的数据最新打包的中文文档下载地址是。中文维基数据繁简混杂大家都说存在这个问题,但的网站是将繁体中文和简体中文分开处理的,所以一直觉得从数据库到结构都应有方法将两者区分开,暂罢,待有空研究其数据时再议。 照例,先讲下环境,Mac OSX 10.11.2 ,Python 3.4.3。 下载数据 方法1:使用官方dump的xml数据 最新打包的中文文档下载地址是:http...

    loostudy 评论0 收藏0
  • pythonJson的注意事项

    摘要:在中,可以通过转码之类得知是啥姓名但是如果接口使用方是其他的语言,那就歇菜了。那么这个时候需要在是做下设置,加上和官网文档中,列出了可用的参数 Json是一种轻量级的数据交换格式, 在跨语言交互时,是数据传递的一个比较好的选择(当然也可以选择xml).python在构造服务json返回值时,如果碰到有中文的时候,使用json.dumps后,中文会变成另外的非人类格式,形如uu59d3u...

    baiy 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<