资讯专栏INFORMATION COLUMN

使用node爬虫,爬取指定排名网站的JS引用库

Stardustsky / 878人阅读

摘要:前期准备本爬虫将从网站爬取排名前几的网站,具体前几名可以具体设置,并分别爬取他们的主页,检查是否引用特定库。正则获取库由于获取页面库,首先需要获取到的属性,然后通过正则来实现字符串匹配。

前期准备

本爬虫将从网站爬取排名前几的网站,具体前几名可以具体设置,并分别爬取他们的主页,检查是否引用特定库。

github地址

所用到的node主要模块

express 不用多说

request http模块

cheerio 运行在服务器端的jQuery

node-inspector node调试模块

node-dev 修改文件后自动重启app

关于调试Node

在任意一个文件夹,执行node-inspector,通过打开特定页面,在页面上进行调试,然后运行app,使用node-dev app.js来自动重启应用。

所碰到的问题 1. request请求多个页面

由于请求是异步执行的,和分别返回3个页面的数据,这里只爬取了50个网站,一个页面有20个,所以有3页,通过循环里套request请求,来实现。

通过添加请求头可以实现基本的反爬虫

处理数据的方法都写在analyData()里面,造成后面的数据重复存储了,想了很久,才想到一个解决方法,后面会写到是怎么解决的。

</>复制代码

  1. for (var i = 1; i < len+1; i++) {
  2. (function(i){
  3. var options = {
  4. url: "http://www.alexa.cn/siterank/" + i,
  5. headers: {
  6. "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36"
  7. }
  8. };
  9. request(options, function (err, response, body) {
  10. analyData(body,rank);
  11. })
  12. })(i)
  13. }
2. 多层回调

仔细观察代码,你会发现,处理数据的方法使用了如下的多层回调,也可以不使用回调,写在一个函数内部;因为,每层都要使用上一层的数据,造成了这样的写法。

</>复制代码

  1. function f1(data1){
  2. f2(data1);
  3. }
  4. function f2(data2){
  5. f3(data2);
  6. }
  7. function f3(data3){
  8. f4(data4);
  9. }
3. 正则获取JS库

由于获取页面库,首先需要获取到script的src属性,然后通过正则来实现字符串匹配。

</>复制代码

获取到的script可能是上面这样的,由于库名的命名真是各种各样,后来想了一下,因为文件名是用.js结尾的,所以就以点号为结尾,然后把点号之前的字符截取下来,这样获得了库名,代码如下。

</>复制代码

  1. var reg = /[^/]+$/g;
  2. var libName = jsLink.match(reg).join("");
  3. var libFilter = libName.slice(0,libName.indexOf("."));
4.cheerio模块获取JS引用链接

这部分也花了一点时间,才搞定,cheerio获取DOM的方法和jQuery是一样的,需要对返回的DOM对象进行查看,就可以看到对象里隐藏好深的href属性,方法大同小异,你也可以使用其他选择器,选择到script标签

</>复制代码

  1. var $ = cheerio.load(body);
  2. var scriptFile = $("script").toArray();
  3. scriptFile.forEach(function(item,index){
  4. if (item.attribs.src != null) {
  5. obtainLibName(item.attribs.src,index);
  6. }
5.存储数据到数据库

存储数据的逻辑是先获取所有的script信息,然后push到一个缓存数组,由于push后面,紧跟着存储到数据库的方法,这两个方法都写在循环里面的,例如爬取5个网站,每个网站存储一次,后面也会跟着存储,造成数据重复存储。解决方法是存储数据的一般逻辑是先查,再存,这个查比较重要,查询的方法也有多种,这里主要是根据库名来查找唯一的数据对象,使用findOne方法。注意,由于node.js是异步执行的,这里的闭包,每次只传一个i值进去,执行存储的操作。

</>复制代码

  1. // 将缓存数据存储到数据库
  2. function store2db(libObj){
  3. console.log(libObj);
  4. for (var i = 0; i < libObj.length; i++) {
  5. (function(i){
  6. var jsLib = new JsLib({
  7. name: libObj[i].lib,
  8. libsNum: libObj[i].num
  9. });
  10. JsLib.findOne({"name": libObj[i].lib},function(err,libDoc){
  11. if(err) console.log(err);
  12. // console.log(libDoc)
  13. if (!libDoc){
  14. jsLib.save(function(err,result){
  15. if(err) console.log("保存数据出错" + err);
  16. });
  17. }
  18. })
  19. })(i)
  20. }
  21. console.log("一共存储" + libObj.length + "条数据到数据库");
  22. }
6.分页插件

本爬虫前端使用了bootstrap.paginator插件,主要是前台分页,返回数据,根据点击的页数,来显示对应的数据,后期考虑使用AJAX请求的方式来实现翻页的效果,这里的注意项,主要是最后一页的显示,最好前面做个判断,因为返回的数据,不一定刚好是页数的整数倍

</>复制代码

  1. function _paging(libObj) {
  2. var ele = $("#page");
  3. var pages = Math.ceil(libObj.length/20);
  4. console.log("总页数" + pages);
  5. ele.bootstrapPaginator({
  6. currentPage: 1,
  7. totalPages: pages,
  8. size:"normal",
  9. bootstrapMajorVersion: 3,
  10. alignment:"left",
  11. numberOfPages:pages,
  12. itemTexts: function (type, page, current) {
  13. switch (type) {
  14. case "first": return "首页";
  15. case "prev": return "上一页";
  16. case "next": return "下一页";
  17. case "last": return "末页";
  18. case "page": return page;
  19. }
  20. },
  21. onPageClicked: function(event, originalEvent, type, page){
  22. // console.log("当前选中第:" + page + "页");
  23. var pHtml = "";
  24. var endPage;
  25. var startPage = (page-1) * 20;
  26. if (page < pages) {
  27. endPage = page * 20;
  28. }else{
  29. endPage = libObj.length;
  30. }
  31. for (var i = startPage; i < endPage; i++) {
  32. pHtml += "";
  33. pHtml += (i+1) + "";
  34. pHtml += libObj[i].name + "";
  35. pHtml += libObj[i].libsNum + "";
  36. }
  37. libShow.html(pHtml);
  38. }
  39. })
  40. }
完整代码 1. 前端

</>复制代码

  1. $(function () {
  2. var query = $(".query"),
  3. rank = $(".rank"),
  4. show = $(".show"),
  5. queryLib = $(".queryLib"),
  6. libShow = $("#libShow"),
  7. libName = $(".libName"),
  8. displayResult = $(".displayResult");
  9. var checkLib = (function(){
  10. function _query(){
  11. query.click(function(){
  12. $.post(
  13. "/query",
  14. {
  15. rank: rank.val(),
  16. },
  17. function(data){
  18. console.log(data);
  19. }
  20. )
  21. });
  22. queryLib.click(function(){
  23. var inputLibName = libName.val();
  24. if (inputLibName.length == 0) {
  25. alert("请输入库名~");
  26. return;
  27. }
  28. $.post(
  29. "/queryLib",
  30. {
  31. libName: inputLibName,
  32. },
  33. function(data){
  34. if(data.length == 0){
  35. alert("没有查询到名为" + inputLibName + "的库");
  36. libName.val("");
  37. libName.focus();
  38. libShow.html("")
  39. return;
  40. }
  41. var libHtml = "";
  42. for (var i = 0; i < data.length; i++) {
  43. libHtml += "";
  44. libHtml += (i+1) + "";
  45. libHtml += data[i].name + "";
  46. libHtml += data[i].libsNum + "";
  47. }
  48. libShow.html(libHtml);
  49. }
  50. )
  51. });
  52. }
  53. function _showLibs(){
  54. show.click(function(){
  55. $.get(
  56. "/getLibs",
  57. {
  58. rank: rank.val(),
  59. },
  60. function(data){
  61. console.log("一共返回"+ data.length + "条数据");
  62. console.log(data)
  63. var libHtml = "";
  64. for (var i = 0; i < 20; i++) {
  65. libHtml += "";
  66. libHtml += (i+1) + "";
  67. libHtml += data[i].name + "";
  68. libHtml += data[i].libsNum + "";
  69. }
  70. displayResult.show();
  71. libShow.html(libHtml);// 点击显示按钮,显示前20项数据
  72. _paging(data);
  73. }
  74. )
  75. });
  76. }
  77. //翻页器
  78. function _paging(libObj) {
  79. var ele = $("#page");
  80. var pages = Math.ceil(libObj.length/20);
  81. console.log("总页数" + pages);
  82. ele.bootstrapPaginator({
  83. currentPage: 1,
  84. totalPages: pages,
  85. size:"normal",
  86. bootstrapMajorVersion: 3,
  87. alignment:"left",
  88. numberOfPages:pages,
  89. itemTexts: function (type, page, current) {
  90. switch (type) {
  91. case "first": return "首页";
  92. case "prev": return "上一页";
  93. case "next": return "下一页";
  94. case "last": return "末页";
  95. case "page": return page;
  96. }
  97. },
  98. onPageClicked: function(event, originalEvent, type, page){
  99. // console.log("当前选中第:" + page + "页");
  100. var pHtml = "";
  101. var endPage;
  102. var startPage = (page-1) * 20;
  103. if (page < pages) {
  104. endPage = page * 20;
  105. }else{
  106. endPage = libObj.length;
  107. }
  108. for (var i = startPage; i < endPage; i++) {
  109. pHtml += "";
  110. pHtml += (i+1) + "";
  111. pHtml += libObj[i].name + "";
  112. pHtml += libObj[i].libsNum + "";
  113. }
  114. libShow.html(pHtml);
  115. }
  116. })
  117. }
  118. function init() {
  119. _query();
  120. _showLibs();
  121. }
  122. return {
  123. init: init
  124. }
  125. })();
  126. checkLib.init();
  127. })
2.后端路由

</>复制代码

  1. var express = require("express");
  2. var mongoose = require("mongoose");
  3. var request = require("request");
  4. var cheerio =require("cheerio");
  5. var router = express.Router();
  6. var JsLib = require("../model/jsLib")
  7. /* 显示主页 */
  8. router.get("/", function(req, res, next) {
  9. res.render("index");
  10. });
  11. // 显示库
  12. router.get("/getLibs",function(req,res,next){
  13. JsLib.find({})
  14. .sort({"libsNum": -1})
  15. .exec(function(err,data){
  16. res.json(data);
  17. })
  18. })
  19. // 库的查询
  20. router.post("/queryLib",function(req,res,next){
  21. var libName = req.body.libName;
  22. JsLib.find({
  23. name: libName
  24. }).exec(function(err,data){
  25. if (err) console.log("查询出现错误" + err);
  26. res.json(data);
  27. })
  28. })
  29. router.post("/query",function(req,res,next) {
  30. var rank = req.body.rank;
  31. var len = Math.round(rank/20);
  32. for (var i = 1; i < len+1; i++) {
  33. (function(i){
  34. var options = {
  35. url: "http://www.alexa.cn/siterank/" + i,
  36. headers: {
  37. "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36"
  38. }
  39. };
  40. request(options, function (err, response, body) {
  41. analyData(body,rank);
  42. })
  43. })(i)
  44. }
  45. res.json("保存成功")
  46. })
  47. var sites = [];
  48. var flag = 0;
  49. function analyData(data,rank) {
  50. if(data.indexOf("html") == -1) return false;
  51. var $ = cheerio.load(data);// 传递 HTML
  52. var sitesArr = $(".info-wrap .domain-link a").toArray();//将所有a链接存为数组
  53. console.log("网站爬取中``")
  54. for (var i = 0; i < 10; i++) { // ***这里后面要改,默认爬取前10名
  55. var url = sitesArr[i].attribs.href;
  56. sites.push(url);//保存网址,添加wwww前缀
  57. }
  58. console.log(sites);
  59. console.log("一共爬取" + sites.length +"个网站");
  60. console.log("存储数据中...")
  61. getScript(sites);
  62. }
  63. // 获取JS库文件地址
  64. function getScript(urls) {
  65. var scriptArr = [];
  66. var src = [];
  67. var jsSrc = [];
  68. for (var j = 0; j < urls.length; j++) {
  69. (function(i,callback){
  70. var options = {
  71. url: urls[i],
  72. headers: {
  73. "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36"
  74. }
  75. }
  76. request(options, function (err, res, body) {
  77. if(err) console.log("出现错误: "+err);
  78. var $ = cheerio.load(body);
  79. var scriptFile = $("script").toArray();
  80. callback(scriptFile,options.url);
  81. })
  82. })(j,storeLib)
  83. };
  84. function storeLib(scriptFile,url){
  85. flag++;// 是否存储数据的标志
  86. scriptFile.forEach(function(item,index){
  87. if (item.attribs.src != null) {
  88. obtainLibName(item.attribs.src,index);
  89. }
  90. })
  91. function obtainLibName(jsLink,i){
  92. var reg = /[^/]+$/g;
  93. var libName = jsLink.match(reg).join("");
  94. var libFilter = libName.slice(0,libName.indexOf("."));
  95. src.push(libFilter);
  96. }
  97. // console.log(src.length);
  98. // console.log(calcNum(src).length)
  99. (function(len,urlLength,src){
  100. // console.log("length is "+ len)
  101. if (len == 10 ) {// len长度为url的长度才向src和数据库里存储数据,防止重复储存
  102. // calcNum(src);//存储数据到数据库 // ***这里后面要改,默认爬取前10名
  103. var libSrc = calcNum(src);
  104. store2db(libSrc);
  105. }
  106. })(flag,urls.length,src)
  107. }
  108. }// getScript END
  109. // 将缓存数据存储到数据库
  110. function store2db(libObj){
  111. console.log(libObj);
  112. for (var i = 0; i < libObj.length; i++) {
  113. (function(i){
  114. var jsLib = new JsLib({
  115. name: libObj[i].lib,
  116. libsNum: libObj[i].num
  117. });
  118. JsLib.findOne({"name": libObj[i].lib},function(err,libDoc){
  119. if(err) console.log(err);
  120. // console.log(libDoc)
  121. if (!libDoc){
  122. jsLib.save(function(err,result){
  123. if(err) console.log("保存数据出错" + err);
  124. });
  125. }
  126. })
  127. })(i)
  128. }
  129. console.log("一共存储" + libObj.length + "条数据到数据库");
  130. }
  131. // JS库排序算法
  132. function calcNum(arr){
  133. var libObj = {};
  134. var result = [];
  135. for (var i = 0, len = arr.length; i < len; i++) {
  136. if (libObj[arr[i]]) {
  137. libObj[arr[i]] ++;
  138. } else {
  139. libObj[arr[i]] = 1;
  140. }
  141. }
  142. for(var o in libObj){
  143. result.push({
  144. lib: o,
  145. num: libObj[o]
  146. })
  147. }
  148. result.sort(function(a,b){
  149. return b.num - a.num;
  150. });
  151. return result;
  152. }
  153. module.exports = router;
后记

通过这个小爬虫,学习到很多知识,例如爬虫的反爬虫有哪些策越,意识到node.js的异步执行特性,前后端是怎么进行交互的。同时,也意识到有一些方面的不足,后面还需要继续改进,欢迎大家的相互交流。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/51029.html

相关文章

  • 使用node爬虫爬取指定排名网站JS引用

    摘要:前期准备本爬虫将从网站爬取排名前几的网站,具体前几名可以具体设置,并分别爬取他们的主页,检查是否引用特定库。正则获取库由于获取页面库,首先需要获取到的属性,然后通过正则来实现字符串匹配。 前期准备 本爬虫将从网站爬取排名前几的网站,具体前几名可以具体设置,并分别爬取他们的主页,检查是否引用特定库。 github地址 所用到的node主要模块 express 不用多说 request ...

    helloworldcoding 评论0 收藏0
  • 使用node爬虫爬取指定排名网站JS引用

    摘要:前期准备本爬虫将从网站爬取排名前几的网站,具体前几名可以具体设置,并分别爬取他们的主页,检查是否引用特定库。正则获取库由于获取页面库,首先需要获取到的属性,然后通过正则来实现字符串匹配。 前期准备 本爬虫将从网站爬取排名前几的网站,具体前几名可以具体设置,并分别爬取他们的主页,检查是否引用特定库。 github地址 所用到的node主要模块 express 不用多说 request ...

    Sleepy 评论0 收藏0
  • Python爬虫笔记1-爬虫背景了解

    摘要:学习爬虫的背景了解。但是搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件的内容,如标注为的链接,或者是协议。不同领域不同背景的用户往往具有不同的检索目的和需求,搜索引擎无法提供针对具体某个用户的搜索结果。 学习python爬虫的背景了解。 大数据时代数据获取方式 如今,人类社会已经进入了大数据时代,数据已经成为必不可少的部分,可见数据的获取非常重要,而数据的获取的方式...

    oujie 评论0 收藏0
  • 一只node爬虫升级打怪之路

    摘要:我是一个知乎轻微重度用户,之前写了一只爬虫帮我爬取并分析它的数据,我感觉这个过程还是挺有意思,因为这是一个不断给自己创造问题又去解决问题的过程。所以这只爬虫还有登陆知乎搜索题目的功能。 我一直觉得,爬虫是许多web开发人员难以回避的点。我们也应该或多或少的去接触这方面,因为可以从爬虫中学习到web开发中应当掌握的一些基本知识。而且,它还很有趣。 我是一个知乎轻微重度用户,之前写了一只爬...

    shiweifu 评论0 收藏0
  • Python_爬虫基础

    摘要:并不是所有爬虫都遵守,一般只有大型搜索引擎爬虫才会遵守。的端口号为的端口号为工作原理网络爬虫抓取过程可以理解为模拟浏览器操作的过程。表示服务器成功接收请求并已完成整个处理过程。 爬虫概念 数据获取的方式: 企业生产的用户数据:大型互联网公司有海量用户,所以他们积累数据有天然优势。有数据意识的中小型企业,也开始积累的数据。 数据管理咨询公司 政府/机构提供的公开数据 第三方数据平台购买...

    ixlei 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<