资讯专栏INFORMATION COLUMN

我用Python爬取了女神视界,爬虫之路永无止境「内附源码」

niuxiaowei111 / 2433人阅读

摘要:我发现抖音上很多小姐姐就拍个跳舞的视频就火了,大家是冲着舞蹈水平去的吗,都是冲着颜值身材去的,能刷到这篇文章的都是了,我就跟大家不一样了,一个个刷太麻烦了,我直接爬下来看个够,先随意展示两个。

我发现抖音上很多小姐姐就拍个跳舞的视频就火了,大家是冲着舞蹈水平去的吗,都是冲着颜值身材去的,能刷到这篇文章的都是lsp了,我就跟大家不一样了,一个个刷太麻烦了,我直接爬下来看个够,先随意展示两个。

采集目标

爬取目标:女神世界

效果展示

工具使用

使用环境:Python3.7 工具:pycharm 第三方库:requests, re, pyquery

爬虫思路:

  1. 获取的是视频数据 (16进制字节)
  2. 在这个页面没有视频地址 需要进去详情页 所有需要从 视频播放页开始抓取

使用快捷键 F12 进入开发者控制台:

先不急, 找到 视频地址 去搜索他 看看在哪里有包含:

定位他 发现是静态页面返回的数据:

上代码:

def Tools(url):# 封装一个工具函数 用来做请求的    headers = {        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36 Edg/93.0.961.52"    }    response = requests.get(url, headers=headers)    return responseurl = "https://www.520mmtv.com/9614.html"response = Tools(url).textvideo_url = re.findall(r"url: "(.*?)",", response)[0] # 正则表达式提取 视频地址video_content = Tools(video_url).content# 视频地址存储 需要在代码同路径 手动创建 短视频文件夹with open("./短视频/123.mp4", "ab") as f:    f.write(video_content)​# 下载了一个

def main():    url = "https://www.520mmtv.com/hd/rewu.html"    response = Tools(url).text    doc = pq(response) # 创建pyquery对象 注意根据css的 class 类选择 和id选择器进行数据提取    i_list = doc(".i_list.list_n2.cxudy-list-formatvideo a").items() # .类选择器 中间有空格的 记得替换成.    meta_title = doc(".meta-title").items() # 标题    for i, t in zip(i_list, meta_title):        href = i.attr("href")        Play(t.text(), href)

全部代码:

import requestsimport refrom pyquery import PyQuery as pqdef Tools(url):    headers = {        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36 Edg/93.0.961.52"    }    response = requests.get(url, headers=headers)    return responsedef Play(title, url):    # url = "https://www.520mmtv.com/9614.html"    response = Tools(url).text    video_url = re.findall(r"url: "(.*?)",", response)[0]    video_content = Tools(video_url).content    with open("./短视频/{}.mp4".format(title), "ab") as f:        f.write(video_content)        print("{}下载完成....".format(title))def main():    url = "https://www.520mmtv.com/hd/rewu.html"    response = Tools(url).text    doc = pq(response) # 创建pyquery对象 注意根据css的 class 类选择 和id选择器进行数据提取    i_list = doc(".meta-title").items() # .类选择器 中间有空格的 记得替换成.    meta_title = doc(".meta-title").items() # 标题    for i, t in zip(i_list, meta_title):        href = i.attr("href")        Play(t.text(), href)if __name__ == "__main__":    main()

下载比较慢网络不好,你网快的话 ,就下载快。

效果:

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/123091.html

相关文章

  • 我用Python取了五千张美女图壁纸,每天一张忘记初恋!

    摘要:爱美之心人皆有之,正所谓窈窕淑女君子好逑,美好敲代码的一天从好看的桌面壁纸开始,好看的桌面壁纸从美女壁纸开始。 大家好,我是辣条,这是我爬虫系列的第26篇。 爱美之心人皆有之,正所谓窈窕淑女君子好逑,美好敲代码的一天从好看的桌面壁纸开始,好看的桌面壁纸从美女壁纸开始。今天给大家带来福利啦,爬...

    huaixiaoz 评论0 收藏0
  • 首次公开,整理12年积累的博客收藏夹,零距离展示《收藏夹吃灰》系列博客

    摘要:时间永远都过得那么快,一晃从年注册,到现在已经过去了年那些被我藏在收藏夹吃灰的文章,已经太多了,是时候把他们整理一下了。那是因为收藏夹太乱,橡皮擦给设置私密了,不收拾不好看呀。 ...

    Harriet666 评论0 收藏0
  • Python爬虫实战:1000图库大全【别轻易点进来】

    摘要:大家好我是辣条。今天给大家带来爬虫实战例之篇爬虫之路永无止境。 大家好,我是辣条。 今天给大家带来【爬虫实战100例】之41篇,爬虫之路永无止境。 爬取目标 网址:尺度有点大,遭不住... 效果展示 工具准备 开发工具ÿ...

    番茄西红柿 评论0 收藏2637
  • node.js 爬取招聘信息分析各职业钱途(爬虫+动态IP代理+数据可视化分析)

    摘要:成功爬取了拉钩网上多个招聘岗位的具体信息后,数据可视化并得出分析结果如下从整体看,北上广深杭这五个城市前端工程师招聘岗位,北京是遥遥领先,是深圳的两倍,是广州的三倍,其次到上海,深圳,杭州,广州居末。 前前言 本文首发于 github blog 不想看爬虫过程只想看职位钱途数据分析请看这里:前端招聘岗位分析C++招聘岗位分析JAVA招聘岗位分析PHP招聘岗位分析Python招聘岗位分析...

    546669204 评论0 收藏0
  • 爬虫到机器学习预测,我是如何一步一步做到的?

    摘要:数据分析实战北京二手房房价分析数据分析实战北京二手房房价分析建模篇除了数据分析,好多朋友也对爬虫特别感兴趣,想知道爬虫部分是如何实现的。爬取目标是北京二手房,仅针对一个城市而言,数据量并不大。 作者:xiaoyu 微信公众号:Python数据科学 知乎:python数据分析师 showImg(https://segmentfault.com/img/remote/1460000016...

    Tamic 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<