资讯专栏INFORMATION COLUMN

爬虫实例:当当网书籍介绍

dendoink / 1181人阅读

</>复制代码

  1. import json
  2. import re
  3. import requests
  4. from requests import RequestException
  5. def get_one_page(url):
  6. try:
  7. response = requests.get(url)
  8. if response.status_code == 200:
  9. # print("2sas")
  10. print(response.text)
  11. return response.text
  12. return None
  13. except RequestException:
  14. return None
  15. def parse_one_page(html):
  16. # 加上re.S后, .将会匹配换行符
  17. pattern = re.compile("
  18. .*?list_num.*?>(.*?)
.*?pic.*?src="(.*?)".*?/>.*?name">.*?tuijian">(.*?).*?publisher_info.*?title="(.*?)".*?biaosheng.*?(.*?).*?",re.S) items = re.findall(pattern,html) for item in items: yield { "index":item[0], "iamge":item[1], "title":item[2], "tuijian":item[3], "author":item[4], "times":item[5], } def write_content_to_file(content): with open("book.txt", "a", encoding="UTF-8") as f: f.write(json.dumps(content, ensure_ascii=False) + " ") f.close() def main(page): url = "http://bang.dangdang.com/" "books/fivestars/01.00.00.00.00.00-recent30-0-0-1-" + str(page) html = get_one_page(url) parse_one_page(html) for item in parse_one_page(html): print(item) write_content_to_file(item) if __name__ == "__main__": for i in range(1,2): main(i)

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/42835.html

相关文章

  • Python猫荐书系列之七:Python入门书籍有哪些?

    摘要:正好,最近又有几位不同身份的初学者来咨询,要我推荐几本入门书籍,而我们荐书系列已经停更了两个多月,所以,本期荐书就来推荐一些入门书籍吧。为了准备这期荐书,我专门搜集了本入门书籍,现在全部加入到了一份豆瓣豆列里,方便大家查看。 showImg(https://segmentfault.com/img/remote/1460000019299066?w=4790&h=3193); 本文原创...

    Joyven 评论0 收藏0
  • Python

    摘要:最近看前端都展开了几场而我大知乎最热语言还没有相关。有关书籍的介绍,大部分截取自是官方介绍。但从开始,标准库为我们提供了模块,它提供了和两个类,实现了对和的进一步抽象,对编写线程池进程池提供了直接的支持。 《流畅的python》阅读笔记 《流畅的python》是一本适合python进阶的书, 里面介绍的基本都是高级的python用法. 对于初学python的人来说, 基础大概也就够用了...

    dailybird 评论0 收藏0

发表评论

0条评论

dendoink

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<