资讯专栏INFORMATION COLUMN

批量下载文件(以xxx网站为例)

enali / 663人阅读

摘要:单田芳白眉大侠单田芳白眉大侠这个是他后台临时生成的下载地址,过几分钟就会失效。用直接拿到网页单田芳白眉大侠单田芳白眉大侠,,都是固定的,变得只是下载的章数和动态生成的地址码。

爸爸经常拿个收音机听评书,最近想帮爸爸在网上下个全集。打开百度搜了下评书,发现有个叫评书网的网站。搜了下单田芳说的《白眉大侠》。但是只能一回一次的单个点击下载,那不得点死。所以就想到了批量搞它。本文用的方法很简单(大神勿喷)。
发现规律,http://www.5ips.net/down_120_001.htm这个是第一回的下载地址,用浏览器打开显示网页源码发现下载地址就在里边那就好办了。url[2]= "/pingshu/单田芳_白眉大侠/单田芳_白眉大侠_001.mp3?key=8de4ff27ca1e24e711d0772ebe13b454_511093084"这个是他后台临时生成的下载地址,过几分钟就会失效。规律得到了,url地址是_001表示第一回,文件地址为_001.mp3, 如果是_002就表示第二回,文件地址为_002.mp3。以此类推
好吧直接搞起。用urllib2直接拿到网页
psurl0 = "http://www.5ips.net/down_120_"
psurl0_0 = ".htm"
psurl1 = "http://p33d.5ips.net/pingshu/单田芳_白眉大侠/单田芳_白眉大侠_"
def main(index):
    ji = "";
    if index < 10:
        ji = "00%d" %index;
    elif index < 100:
        ji = "0%d" %index;
    else:
        ji = "%d" %index
    
    url_p = psurl0 + ji + psurl0_0
    reque = urllib2.Request(url_p, headers = headers)
    content = urllib2.urlopen(reque).read()
    reg = ".mp3?key=.*""
    reslut = re.search(reg, content).group()
    reslut = reslut.replace(""", "")
    newpath = psurl1 + ji + reslut
    #down(newpath, ji + ".mp3")

psurl0,psurl0_0,psurl1都是固定的,变得只是下载的章数和动态生成的地址码。由于下载地址直接显示到网页源码中了,所以不需要复杂的解析,直接用正则找到下载地址reslut

拿到下载地址了直接用urllib2.urlopen下载失败了,但是把地址帖到浏览器可以播放,应该被网站禁止了。好吧,尝试其他办法。打开命令行用weget下载成功。问题解决了。weget是linux系统自带的下载工具,Mac和windows都需要自己安装。
def down(url, file_name):
    option = "wget -O ./白眉大侠/%s %s" %(file_name, url)
    pop = subprocess.Popen(target, stdin = subprocess.PIPE, stdout = subprocess.PIPE)
    pop.communicate(mess)

一个循环把320回的MP3全部搞下

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/37816.html

相关文章

  • 将 exe 文件反编译成 Python 脚本

    摘要:打包成单文件所使用的命令为打包成文件夹所使用的命令为不管是哪种打包方式都会留下一个文件。这样我们只需将脚本文件和脚本文件放置到同一文件夹下,运行我们的脚本。可以看到已经完美的反编译出其中的脚本好了,相信大家已经明白了反编译的原理。 近期阅读了一篇很感兴趣的文章,为免后续文章被删无法再阅读,现...

    xbynet 评论0 收藏0
  • 练手项目3:访问图像网站,查找某类型图片,下载查询结果

    摘要:一般常用爬虫下载文本,图片,视频,声音。此处以下载图片为例,图片也是相对最容易。格式的文件下载只要抓包或者得到请求链接,那么将上面的程序稍稍改动一下,即可下载。比如只要能试听,就会有链接。声明部分参考了很有趣儿的爬虫分享 一般常用爬虫下载文本,图片,视频,声音。此处以下载图片为例,图片也是相对最容易。 #-*- coding:utf-8 -*- import os,re,request...

    Yuqi 评论0 收藏0
  • 爬虫 - 收藏集 - 掘金

    摘要:在这之前,还是有必要对一些概念超轻量级反爬虫方案后端掘金前言爬虫和反爬虫日益成为每家公司的标配系统。 爬虫修炼之道——从网页中提取结构化数据并保存(以爬取糗百文本板块所有糗事为例) - 后端 - 掘金欢迎大家关注我的专题:爬虫修炼之道 上篇 爬虫修炼之道——编写一个爬取多页面的网络爬虫主要讲解了如何使用python编写一个可以下载多页面的爬虫,如何将相对URL转为绝对URL,如何限速,...

    1fe1se 评论0 收藏0
  • mongoDB安装与操作

    摘要:一下安装数据库进入官网,选择相应的版本下载,安装时默认勾选安装服务和修改一些数据库配置,如已有数据库连接工具,可取消默认勾选的安装。 一、Win下安装数据库 进入mongo官网,选择相应的msi版本下载,安装时默认勾选安装MongoD服务和修改一些数据库配置,如已有数据库连接工具Robo 3T,可取消默认勾选的compass安装。 若启动服务报mp错误,可修改binmongod.cfg...

    zorpan 评论0 收藏0
  • 如何配置 Aria2 来进行文件下载

    摘要:如何使用下载文件当你在或者上安装配置好时,你就可以通过其下载文件了。正文完参考文章下开机启动懒人安装教程的开机启动文件夹在哪及开机自动启动软件 什么是 Aria2? aria2 是一个轻量级的多协议和多源命令行下载实用程序。 它支持 HTTP / HTTPS,FTP,SFTP,BitTorrent 和 Metalink。 aria2 可以通过内置的 JSON-RPC 和 XML-RPC...

    ctriptech 评论0 收藏0

发表评论

0条评论

enali

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<