资讯专栏INFORMATION COLUMN

学习极客学院多线程爬虫课程的收获

saucxs / 3357人阅读

摘要:明日计划加入计时功能,测试单线程与多线程的性能差别尝试抓取网页中的图片并保存

昨天开始了极客学院《XPath与多线程爬虫》课程的学习,主要涉及到XPath和requests的使用,在测试过程中出现了很多问题,经过不断摸索以及前辈们的帮助,现将经验总结如下:
1. Python3下面文本编码问题
虽然Python3相对于2已经集成了很多编码方式,使我们不需要过多去关心和指定编码,但有时候在文本读取,写入的时候还是需要多小心,在测试过程中多次出现在写入文件时报告错误“UnicodeEncodeError: "ascii" codec can"t encode character "u56de" in position 0: ordinal not in range(128)”,这是由于我们在抓取网页的时候采用的是UTF-8编码,而存储时没有指定编码,在存储到文件的过程中就会报错。
解决办法为:
在读取文件时加入指定UTF-8编码的选项

</>复制代码

  1. f = open("content.txt","a",encoding="UTF-8")

另外需要注意的是使用requests获取到网页之后同样要指定编码

</>复制代码

  1. html = requests.get(url)
  2. html = re.sub(r"charset=(/w*)", "charset=UTF-8", html.text)

2. XPath的用法
XPath可以很方便的解析XML文件的节点和属性,使用也很简单,相比于正则表达式来说,XPath的查询方式更加高效准确,它来自于lxml包内的etree,在使用之前应该声明

</>复制代码

  1. from lxml import etree

在使用XPath应该遵循“先抓大,再抓小”的原则,现定位到大的节点,获取到所有字节点再一层一层往下寻找,直到获取所需要的信息
例如,我们想要抓取百度贴吧的网页每一个楼层的信息(包括作者,回帖时间,回帖内容等等),通过Chrome-Inspect element可以审查代码,得到某一个楼层的代码楼层最外层都有声明:

</>复制代码

  1. 使用XPath先获取整个楼层的所有节点(Node)

  2. </>复制代码

    1. content_field = selector.xpath("//div[@class="l_post j_l_post l_post_bright "]")
  3. 再往下寻找,发现我们要提取的内容位于

  4. </>复制代码

  5. 这一个节点以内,再继续往下挖掘:

  6. </>复制代码

    1. content =each.xpath("div[@class="d_post_content_main"]/div/cc/div[@class="d_post_content j_d_post_content clearfix"]/text()")
  7. 这样一步步得到想要的内容

  8. 3.JSON格式
    网页中很多内容使用JSON来传输,我们要把内容还原出来需要使用json模块

  9. </>复制代码

    1. import json
    2. reply_info = json.loads(each.xpath("@data-field")[0].replace(""",""))
  10. 4.Python中的多线程
    多线程可以很大幅度提高软件的处理速度,可以充分利用计算机性能,不同的核处理不同的任务,并行执行,提高处理速度,使用方法如下:

  11. </>复制代码

    1. from multiprocessing.dummy import Pool as ThreadPool
    2. pool = ThreadPool(8)
    3. results = pool.map(spider,page)
    4. pool.close()
    5. pool.join()
  12. map 这一小巧精致的函数是简捷实现 Python 程序并行化的关键。map 源于 Lisp 这类函数式编程语言。它可以通过一个序列实现两个函数之间的映射。上面的这两行代码将 page这一序列中的每个元素作为参数传递到 spyder 方法中,并将所有结果保存到 results 这一列表中。其结果大致相当于:

  13. </>复制代码

    1. results = []
    2. for page in pages:
    3. results.append(spyder(page))
  14. 上述代码中调用join之前,先调用close函数,否则会出错。执行完close后不会有新的进程加入到pool,join函数等待所有子进程结束。

  15. 全部代码:

  16. </>复制代码

    1. #-*-coding:utf8-*-
    2. from lxml import etree
    3. from multiprocessing.dummy import Pool as ThreadPool
    4. import requests
    5. import json
    6. import re
    7. import sys
    8. """重新运行之前请删除content.txt,因为文件操作使用追加方式,会导致内容太多。"""
    9. def towrite(contentdict):
    10. #f=open("content.txt","wb")
    11. f.writelines(u"回帖时间:" + str(contentdict["topic_reply_time"]) + "
    12. ")
    13. f.writelines(u"回帖内容:" + str(contentdict["topic_reply_content"]) + "
    14. ")
    15. f.writelines(u"回帖人:" + contentdict["user_name"] + "
    16. ")
    17. #f.close()
    18. def spider(url):
    19. html = requests.get(url)
    20. #print(html.text)
    21. html = re.sub(r"charset=(/w*)", "charset=UTF-8", html.text)
    22. selector = etree.HTML(html)
    23. # print(selector)
    24. #content_field = selector.xpath("//div[starts-with(@class,"l_post l_post_bright")]")p_content p_content_nameplate
    25. #content_field = selector.xpath("//*[@id="j_p_postlist"]")
    26. content_field = selector.xpath("//div[@class="l_post j_l_post l_post_bright "]")
    27. item = {}
    28. for each in content_field:
    29. reply_info = json.loads(each.xpath("@data-field")[0].replace(""",""))
    30. author = reply_info["author"]["user_name"]
    31. # content1 = each.xpath("//div[@class="d_post_content_main"]")
    32. content = each.xpath("div[@class="d_post_content_main"]/div/cc/div[@class="d_post_content j_d_post_content clearfix"]/text()")
    33. reply_time = reply_info["content"]["date"]
    34. print("content:{0}".format(content))
    35. print("Reply_time:{0}".format(reply_time))
    36. print("Author:{0}".format(author))
    37. item["user_name"] = author
    38. item["topic_reply_content"] = content
    39. item["topic_reply_time"] = reply_time
    40. towrite(item)
    41. if __name__ == "__main__":
    42. pool = ThreadPool(8)
    43. f = open("content.txt","a",encoding="UTF-8")
    44. # f = open("content.txt","a")
    45. page = []
    46. for i in range(1,21):
    47. newpage = "http://tieba.baidu.com/p/3522395718?pn=" + str(i)
    48. page.append(newpage)
    49. results = pool.map(spider,page)
    50. pool.close()
    51. pool.join()
    52. f.close()
  17. 结果如下:

  18. </>复制代码

    1. 回帖时间:2015-01-11 16:52
    2. 回帖内容:[" 6和plus纠结买哪款。还有 买完新机可以让他上色吗"]
    3. 回帖人:斗已转0
    4. 回帖时间:2015-01-11 16:53
    5. 回帖内容:[" 我现在是以贴吧高级会员的身份帮你顶贴,请注意你的态度"]
    6. 回帖人:暑假干啥
    7. 回帖时间:2015-01-11 16:57
    8. 回帖内容:[" 我去"]
    9. 回帖人:qw518287200
    10. 回帖时间:2015-01-11 16:57
    11. 回帖内容:[" 能教我怎么看序列号或imei号麽,大神uf618"]
    12. 回帖人:花颜诱朕醉
  19. 需要注意的是,极客学院附带资料的源代码是无法使用的,以上说到的几点就是我在调试过程中淌过的坑,要注意使用Chrome对要抓取的网页进行细心分析,修改xpath参数并不断试验。

  20. +++++++明日计划++++++++++++++++
    加入计时功能,测试单线程与多线程的性能差别
    尝试抓取网页中的图片并保存

  21. GPU云服务器
  22. 云服务器
  23. 爬虫多线程
  24. 多线程爬虫
  25. 多线程网页爬虫
  26. jsoup多线程爬虫
  27. 文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

  28. 转载请注明本文地址:https://www.ucloud.cn/yun/45408.html

相关文章

  • python爬虫网页提取器——xpath

    xpath简单来说就是根据网页的源码路径去找你想要的的信息。例子: html= 测试-常规用法 这是第一条信息 这是第二条信息 这是第三条信息 不需要的信息1 不需要的信息2 不需要的信息3 极客学院 ...

    andycall 评论0 收藏0
  • 前端学习之路

    摘要:前言之所以会写这篇文章是因为在一年的前端学习过程,我走了很多弯路,也思考了很多,最近又正好拿到了某厂的,希望以我之拙见能给初学者一些帮助。不过前端的方向,主要还是自学。 前言 之所以会写这篇文章是因为在一年的前端学习过程,我走了很多弯路,也思考了很多,最近又正好拿到了某厂的offer,希望以我之拙见能给初学者一些帮助。 我的学习之路 我是一个计算机相关专业的大三学生,不过实际上我的专业...

    mj 评论0 收藏0
  • 前端学习之路

    摘要:前言之所以会写这篇文章是因为在一年的前端学习过程,我走了很多弯路,也思考了很多,最近又正好拿到了某厂的,希望以我之拙见能给初学者一些帮助。不过前端的方向,主要还是自学。 前言 之所以会写这篇文章是因为在一年的前端学习过程,我走了很多弯路,也思考了很多,最近又正好拿到了某厂的offer,希望以我之拙见能给初学者一些帮助。 我的学习之路 我是一个计算机相关专业的大三学生,不过实际上我的专业...

    tulayang 评论0 收藏0
  • 前端学习之路

    摘要:前言之所以会写这篇文章是因为在一年的前端学习过程,我走了很多弯路,也思考了很多,最近又正好拿到了某厂的,希望以我之拙见能给初学者一些帮助。不过前端的方向,主要还是自学。 前言 之所以会写这篇文章是因为在一年的前端学习过程,我走了很多弯路,也思考了很多,最近又正好拿到了某厂的offer,希望以我之拙见能给初学者一些帮助。 我的学习之路 我是一个计算机相关专业的大三学生,不过实际上我的专业...

    caozhijian 评论0 收藏0

发表评论

0条评论

saucxs

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<