资讯专栏INFORMATION COLUMN

python爬虫-requests与bs4获得所有炉石传说卡背

Eirunye / 1033人阅读

摘要:太简单了就当做个记录,直接贴代码了发送请求设置编码防止乱码解析页面和保存数据程序用时

太简单了就当做个记录,直接贴代码了

</>复制代码

  1. import os
  2. import requests
  3. from bs4 import BeautifulSoup
  4. import time
  5. # 发送请求
  6. def send():
  7. r = requests.get(url=base_url)
  8. # 设置编码防止乱码
  9. r.encoding ="GBK";
  10. content = r.text
  11. parseAndSave(content)
  12. # 解析页面和保存数据
  13. def parseAndSave(html):
  14. soup = BeautifulSoup(html, "lxml")
  15. ulList = soup.find_all("ul", attrs={"class": "kzlist"})
  16. # print(ulList);
  17. for ul in ulList:
  18. li = ul.find_all("li");
  19. for item in li:
  20. name = item.find("img").next_sibling
  21. obtain_method = item.find("a").find("p").text
  22. rootDir = os.getcwd()
  23. if not os.path.exists(name):
  24. os.mkdir(name);
  25. os.chdir(name);
  26. src = item.find("a").find("img")["src"]
  27. pic = requests.get(src)
  28. with open("pic.jpg", "wb") as fw:
  29. fw.write(pic.content)
  30. with open("info.txt", "a+") as fw:
  31. fw.write(name+"
  32. ")
  33. fw.write(obtain_method)
  34. os.chdir(rootDir);
  35. def main():
  36. start_time = time.time()
  37. send()
  38. end_time = time.time()
  39. print("程序用时:",(end_time - start_time))
  40. if __name__ == "__main__":
  41. base_url = "http://news.4399.com/gonglue/lscs/kabei/"
  42. cardList = []
  43. main()

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/42905.html

相关文章

  • 一步一步教你如何搭建自己的视频聚合站

    摘要:不过因为各个平台互相挖人的关系,导致关注的一些主播分散到了各个直播平台,来回切换有点麻烦,所以萌生了做一个视频聚合站的想法。后续我们会对这三个部分的功能做逐一展开说明。正则处理要求比较高,但是几乎能应对所有的情况,属于大杀器。 前言 作为一个炉石传说玩家,经常有事没事开着直播网站看看大神们的精彩表演。不过因为各个平台互相挖人的关系,导致关注的一些主播分散到了各个直播平台,来回切换有点麻...

    justjavac 评论0 收藏0
  • 爬虫问题总结

    摘要:编码我们发现,中有时候存在中文,这是就需要对进行编码。可以先将中文转换成编码,然后使用方法对参数进行编码后传递。 本文档对日常学习中用 python 做数据爬取时所遇到的一些问题做简要记录,以便日后查阅,部分问题可能因为认识不到位会存在一些误解,敬请告知,万分感谢,共同进步。 估算网站规模 该小节主要针对于整站爬取的情况。爬取整站之前,肯定是要先对一个网站的规模进行估计。这是可以使用g...

    nanfeiyan 评论0 收藏0
  • Python3爬虫下载pdf(二)

    摘要:爬虫下载二最近在学习的爬虫,并且玩的不亦说乎,因此写个博客,记录并分享一下。需下载下载以下模块模块模块一源码设置命令行参数功能下载目标最大的线程数。方法的作用与内置函数类似,不过函数会在多个线程中并发调用方法返回一个生成器。 Python3爬虫下载pdf(二) 最近在学习python的爬虫,并且玩的不亦说乎,因此写个博客,记录并分享一下。 需下载下载以下模块 bs4模块 reques...

    LancerComet 评论0 收藏0
  • Python3爬虫下载pdf(一)

    摘要:爬虫下载一最近在学习的爬虫,并且玩的不亦说乎,因此写个博客,记录并分享一下。 Python3爬虫下载pdf(一) 最近在学习python的爬虫,并且玩的不亦说乎,因此写个博客,记录并分享一下。 需下载以下模块 bs4 模块 requests 模块 一、源码 功能:下载指定url内的所有的pdf 语法:将含有pdf的url放到脚本后面执行就可以了 from bs4 import...

    instein 评论0 收藏0
  • Python3 爬虫 requests+BeautifulSoup4(BS4) 爬取小说网站数据

    摘要:刚学爬虫不久,迫不及待的找了一个网站练手,新笔趣阁一个小说网站。继续学习,有改进方案的欢迎提出来,一起交流。 刚学Python爬虫不久,迫不及待的找了一个网站练手,新笔趣阁:一个小说网站。 前提准备 安装Python以及必要的模块(requests,bs4),不了解requests和bs4的同学可以去官网看个大概之后再回来看教程 爬虫思路 刚开始写爬虫的小白都有一个疑问,进行到什么时候...

    taoszu 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<