资讯专栏INFORMATION COLUMN

Java爬虫其实也很简单,实用的入门级爬虫

TesterHome / 2904人阅读

摘要:前言任何语言都是可以爬虫的,只要你懂的常用的协议啥的就可以模仿浏览器的行为获取你想要的数据。这里我将教大家一个简单实用的案例如何获取全民歌的下载链接。这就获得所有参数最终的体了。这块没啥好说的,不是我们的教程范围。我一般用的,,。

前言

任何语言都是可以爬虫的,只要你懂的常用的http协议啥的就可以模仿浏览器的行为获取你想要的数据。这里我将教大家一个简单实用的案例:如何获取全民K歌的下载链接。
ps: 这主要是教大家一个入门级的爬虫,不是希望大家去跳过vip下载...
这里有码云的代码片段是main的解析可以参考下: 码云代码片段

浏览器抓包

那种专业fildder这类软件抓包我就不提了,免得文章显得更加复杂化。
推荐用谷歌浏览器容易看。

1.打开浏览器进去一个分享链接
2.按F12进入开发者模式
3.点击NetWork
4.最好重新刷新一下页面看下所有访问路径

只要是网页浏览器就可以抓到所有的访问请求。接下来就是寻找那个音乐的链接了:

等你找到你会发现很显然,那个路径没有任何规律,也不知道下载路径如何而来。但是只要思想不滑坡,办法总比困难多。我们找一下是否可以在HTML这些直接找到现成的链接,音乐的播放标签一般都是 audio
我们去Element查找这个节点的时候可以发现确实有下载链接

这样我们大概知道链接的地址了!我们就可以放开手撸代码了!

尝试撸代码

这里我推荐用Jsoup,我用的是版本是1.11.2。

maven: http://www.mvnrepository.com/...
public class QuanMinJousp {
    public static void main(String[] args)throws Exception {    
        //这里是分享地址:
        String url  ="https://kg2.qq.com/node/play?s=571cI75H1xb495Eq&shareuid=609c9b812624338a&topsource=a0_pn201001006_z11_u21643941_l0_t1534223843__";
        Connection tempConn = Jsoup.connect(url);
        //模拟浏览器的请求头
        tempConn.header("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:29.0) Gecko/20100101 Firefox/29.0");
        //开始连接HTTP请求。
        Connection.Response demo = tempConn.ignoreContentType(true).method(Connection.Method.GET)
                .execute();
        Document documentDemo = demo.parse();
                //这里就是获取该页面的HTML元素。
        System.out.println(documentDemo.toString());
       }
}

打印出来的HTML不出所料,就找不到audio的标签,很明显是后续才加载出这个标签来播放音乐的。那这个下载地址是哪里来的呢。我们可以在打印出来的HTML可以找到其他线索:
不出所料,在所有script标签中 的第三个我们发现了猫腻。

所有的数据都在这个标签里,包括评论,送花,歌曲链接等等所有都在里面。我们拿到标签里的内容就可以了。里面的参数竟然是标准的json格式更加天助我也!我们用代码去掉闲杂人等。

        Elements scriptElements = documentDemo.getElementsByTag("script");
        String initScriptStr = scriptElements.get(2).toString();
        String jsonStr = initScriptStr.substring(initScriptStr.indexOf("{"), initScriptStr.indexOf("; "));
        //这就获得所有参数最终的json体了。
        System.out.println(jsonStr);  

接下来就是Json解析成自己的实体类对象啥的了。这块没啥好说的,不是我们的教程范围。我一般用的simpleJson,gson,fastJson。阿里巴巴的我用的多一点。

最后我把这段代码功能接入我的微信公众号实现效果:

小伙伴们可以关注公众号体验一波:

结束

该教程仅供学习参考,不涉及商业,涉及侵权啥的任何问题本人概不负责啊哈哈哈哈哈略略略

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/108145.html

相关文章

  • Java爬虫其实也很简单实用入门爬虫

    摘要:前言任何语言都是可以爬虫的,只要你懂的常用的协议啥的就可以模仿浏览器的行为获取你想要的数据。这里我将教大家一个简单实用的案例如何获取全民歌的下载链接。这就获得所有参数最终的体了。这块没啥好说的,不是我们的教程范围。我一般用的,,。 前言 任何语言都是可以爬虫的,只要你懂的常用的http协议啥的就可以模仿浏览器的行为获取你想要的数据。这里我将教大家一个简单实用的案例:如何获取全民K歌的下...

    icyfire 评论0 收藏0
  • SegmentFault 技术周刊 Vol.30 - 学习 Python 来做一些神奇好玩事情吧

    摘要:学习笔记七数学形态学关注的是图像中的形状,它提供了一些方法用于检测形状和改变形状。学习笔记十一尺度不变特征变换,简称是图像局部特征提取的现代方法基于区域图像块的分析。本文的目的是简明扼要地说明的编码机制,并给出一些建议。 showImg(https://segmentfault.com/img/bVRJbz?w=900&h=385); 前言 开始之前,我们先来看这样一个提问: pyth...

    lifesimple 评论0 收藏0
  • SegmentFault 技术周刊 Vol.30 - 学习 Python 来做一些神奇好玩事情吧

    摘要:学习笔记七数学形态学关注的是图像中的形状,它提供了一些方法用于检测形状和改变形状。学习笔记十一尺度不变特征变换,简称是图像局部特征提取的现代方法基于区域图像块的分析。本文的目的是简明扼要地说明的编码机制,并给出一些建议。 showImg(https://segmentfault.com/img/bVRJbz?w=900&h=385); 前言 开始之前,我们先来看这样一个提问: pyth...

    SQC 评论0 收藏0
  • 【三万粉丝终极福利】Python、C、Java三大语言学习路线和资源整理

    摘要:今天给大家带来三万粉丝三大语言学习路线和资源整理,收藏就对了。还有对数组面向对象和异常处理等。语言学习路线一基础阶段技能树掌握脚本界面编程能力数据库基本爬虫多线程多进程开发能力,可以胜任基本的开发工作。 大家好,我是辣条。 今天给大家带来三万粉丝三大语言学习路线和资源整理,收藏就对了。 目录...

    GitChat 评论0 收藏0
  • scrapy入门教程3:scrapyshell命令

    摘要:用例运行爬虫命令基本语法是否需要项目存在当然是不需要咯貌似这个命令是不依托一个项目而直接运行一个爬虫的命令。用例我终于写完了,喜欢的就收藏推荐一下吧,这样我就会更有动力写新的教程了,哇哈哈 0. 基本环境说明 本文截图及运行环境均在Win8上实现(是的,我放假回家了,家里的机器是win8的没有办法),但基本步骤与win 7环境基本相同。(应该把~)ps:我后来换了台win7的电脑,所...

    zhongmeizhi 评论0 收藏0

发表评论

0条评论

TesterHome

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<