资讯专栏INFORMATION COLUMN

基于PHP/CURL/codeIgniter的Spider Webbot爬虫[2]-使用LIB_pa

light / 2020人阅读

摘要:类似于返回的是数组格式,,其中,是需要被解释的字符串,这里使用获得中的网站首页作为目标是开始的字符,这里抓取作为开始因为标签的属性是这样做就得到一个网站的所有关键字属性可以把抓取的之类的标签转化成字符串,不让服务器进行解释插入到输出的前后,

=====================================================

parse_array类似于return_between 返回的是数组格式
parse_array(string unparsed,string beg,string end)
其中,unparsed是需要被解释的字符串,这里使用http_get()获得$target中的网站首页作为目标
beg是开始的字符,这里抓取作为开始

因为meta标签的属性是
这样做就得到一个网站的所有meta关键字属性

htmlspecialchars可以把抓取的之类的标签转化成字符串,不让服务器进行解释<br> 插入到输出的前后,可以阻止服务器解释HTML</p> </div> <div class="mt-64 tags-seach" > <div class="tags-info"> <a style="width:120px;" title="超融合服务器" href="https://www.ucloud.cn/site/product/utrion.html">超融合服务器</a> <a style="width:120px;" title="服务器托管" href="https://www.ucloud.cn/site/product/uhybrid.html">服务器托管</a> <a style="width:120px;" title="Webbot" href="https://www.ucloud.cn/yun/tag/Webbot/">Webbot</a> <a style="width:120px;" title="Spider" href="https://www.ucloud.cn/yun/tag/Spider/">Spider</a> <a style="width:120px;" title="爬虫怎么使用" href="https://www.ucloud.cn/yun/tag/pachongzenmeshiyong/">爬虫怎么使用</a> <a style="width:120px;" title="爬虫如何使用" href="https://www.ucloud.cn/yun/tag/pachongruheshiyong/">爬虫如何使用</a> </div> </div> <div class="entry-copyright mb-30"> <p class="mb-15"> 文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。</p> <p>转载请注明本文地址:https://www.ucloud.cn/yun/20809.html</p> </div> <ul class="pre-next-page"> <li class="ellipsis"><a class="hpf" href="https://www.ucloud.cn/yun/20808.html">上一篇:基于PHP/CURL/codeIgniter的Spider Webbot爬虫[3]=使用get_at</a></li> <li class="ellipsis"><a class="hpf" href="https://www.ucloud.cn/yun/20810.html">下一篇:$个人笔记['基于PHP/CURL/codeIgniter'的Spider We</a></li> </ul> </div> <div class="about_topicone-mid"> <h3 class="top-com-title mb-0"><span data-id="0">相关文章</span></h3> <ul class="com_white-left-mid atricle-list-box"> <li> <div class="atricle-list-right"> <h2 class="ellipsis2"><a class="hpf" href="https://www.ucloud.cn/yun/20811.html"><b><em>基于</em><em>PHP</em>/<em>CURL</em>/<em>codeIgniter</em><em>的</em><em>Spider</em> <em>Webbot</em><em>爬虫</em>[0]-<em>使用</em>原生<em>PHP</em><em>的</em></b></a></h2> <p class="ellipsis2 good">摘要:学了天的,写了一个爬虫开源项目。现在把所有的笔记放到记录下来,算是一个纪念。定义抓取下载的档案对目标档案建立一个网络连接。 学了7天的PHP/CURL,写了一个爬虫开源项目。 现在把所有的笔记放到Segmentfault记录下来,算是一个纪念。 https://github.com/hosinoruri/Omoikane $target=http://www.WebbotsSp...</p> <div class="com_white-left-info"> <div class="com_white-left-infol"> <a href="https://www.ucloud.cn/yun/u-1367.html"><img src="https://www.ucloud.cn/yun/data/avatar/000/00/13/small_000001367.jpg" alt=""><span class="layui-hide64">masturbator</span></a> <time datetime="">2019-06-27 10:49</time> <span><i class="fa fa-commenting"></i>评论0</span> <span><i class="fa fa-star"></i>收藏0</span> </div> </div> </div> </li> <li> <div class="atricle-list-right"> <h2 class="ellipsis2"><a class="hpf" href="https://www.ucloud.cn/yun/20805.html"><b><em>基于</em><em>PHP</em>/<em>CURL</em>/<em>codeIgniter</em><em>的</em><em>Spider</em> <em>Webbot</em><em>爬虫</em>[6]-<em>PHP</em>关于正则表</b></a></h2> <p class="ellipsis2 good">摘要:模式,其实就是要查找的字段。不能是数字,字母。如果是数字和字母的话,要用来表示替换字段要替换上的,可以是任意操作目标,这里可以是一段,也可以使一个变量,或者一个。 preg_replace(pattern,replacement,subject) pattern模式,其实就是要查找的字段。不能是数字,字母。如果是数字和字母的话,要用/string/来表示 replacement替换字...</p> <div class="com_white-left-info"> <div class="com_white-left-infol"> <a href="https://www.ucloud.cn/yun/u-823.html"><img src="https://www.ucloud.cn/yun/data/avatar/000/00/08/small_000000823.jpg" alt=""><span class="layui-hide64">yzd</span></a> <time datetime="">2019-06-27 10:48</time> <span><i class="fa fa-commenting"></i>评论0</span> <span><i class="fa fa-star"></i>收藏0</span> </div> </div> </div> </li> <li> <div class="atricle-list-right"> <h2 class="ellipsis2"><a class="hpf" href="https://www.ucloud.cn/yun/31860.html"><b><em>基于</em><em>PHP</em>/<em>CURL</em>/<em>codeIgniter</em><em>的</em><em>Spider</em> <em>Webbot</em><em>爬虫</em>[8]-预判网站支持压缩</b></a></h2> <p class="ellipsis2 good">摘要:预判压缩,如果支持压缩则优先使用捕捉档案并且压缩范例得到捕捉到的档案,并且进行压缩,并且输出压缩前后的大小移除标签还可以添加移除所有空格输出一张显示用的表格 预判压缩,如果支持压缩则优先使用 $header[]=Accept-Encoding:compress,gzip; curl_setopt($curl_session,CURLOPT_HTTPHEADER,$header); ...</p> <div class="com_white-left-info"> <div class="com_white-left-infol"> <a href="https://www.ucloud.cn/yun/u-115.html"><img src="https://www.ucloud.cn/yun/data/avatar/000/00/01/small_000000115.jpg" alt=""><span class="layui-hide64">Java3y</span></a> <time datetime="">2019-07-01 14:10</time> <span><i class="fa fa-commenting"></i>评论0</span> <span><i class="fa fa-star"></i>收藏0</span> </div> </div> </div> </li> <li> <div class="atricle-list-right"> <h2 class="ellipsis2"><a class="hpf" href="https://www.ucloud.cn/yun/31859.html"><b><em>基于</em><em>PHP</em>/<em>CURL</em>/<em>codeIgniter</em><em>的</em><em>Spider</em> <em>Webbot</em><em>爬虫</em>[9]捕捉图像并且建立t</b></a></h2> <p class="ellipsis2 good">1.配置好PHP的gd2模块 2.调用LIB_thumbnail.php模块 Full-size imageshowImg(test.jpg src=https://cdn.segmentfault.com/v-5cc2cd8e/global/img/squares.svg> Thumbnail imageshowImg(thumbnail.jpg src=https://cdn.segme...</p> <div class="com_white-left-info"> <div class="com_white-left-infol"> <a href="https://www.ucloud.cn/yun/u-1433.html"><img src="https://www.ucloud.cn/yun/data/avatar/000/00/14/small_000001433.jpg" alt=""><span class="layui-hide64">hss01248</span></a> <time datetime="">2019-07-01 14:10</time> <span><i class="fa fa-commenting"></i>评论0</span> <span><i class="fa fa-star"></i>收藏0</span> </div> </div> </div> </li> <li> <div class="atricle-list-right"> <h2 class="ellipsis2"><a class="hpf" href="https://www.ucloud.cn/yun/20806.html"><b><em>基于</em><em>PHP</em>/<em>CURL</em>/<em>codeIgniter</em><em>的</em><em>Spider</em> <em>Webbot</em><em>爬虫</em>[5]-常用字符串处理函</b></a></h2> <p class="ellipsis2 good">stristr(haystack,needle) 区分大小写 干草堆和缝衣针//判断haystack中是否存在needle。输出bool真假 strstr不区分大小写 strip_tags($string) 移除其中的HTML和PHP标记 str_replace( ,,$string)//移除定位符号 str_replace( ,,$string)//移除连续的空白 str_replace(...</p> <div class="com_white-left-info"> <div class="com_white-left-infol"> <a href="https://www.ucloud.cn/yun/u-449.html"><img src="https://www.ucloud.cn/yun/data/avatar/000/00/04/small_000000449.jpg" alt=""><span class="layui-hide64">HackerShell</span></a> <time datetime="">2019-06-27 10:48</time> <span><i class="fa fa-commenting"></i>评论0</span> <span><i class="fa fa-star"></i>收藏0</span> </div> </div> </div> </li> </ul> </div> <div class="topicone-box-wangeditor"> <h3 class="top-com-title mb-64"><span>发表评论</span></h3> <div class="xcp-publish-main flex_box_zd"> <div class="unlogin-pinglun-box"> <a href="javascript:login()" class="grad">登陆后可评论</a> </div> </div> </div> <div class="site-box-content"> <div class="site-content-title"> <h3 class="top-com-title mb-64"><span>0条评论</span></h3> </div> <div class="pages"></ul></div> </div> </div> <div class="layui-col-md4 layui-col-lg3 com_white-right site-wrap-right"> <div class=""> <div class="com_layuiright-box user-msgbox"> <a href="https://www.ucloud.cn/yun/u-937.html"><img src="https://www.ucloud.cn/yun/data/avatar/000/00/09/small_000000937.jpg" alt=""></a> <h3><a href="https://www.ucloud.cn/yun/u-937.html" rel="nofollow">light</a></h3> <h6>男<span>|</span>高级讲师</h6> <div class="flex_box_zd user-msgbox-atten"> <a href="javascript:attentto_user(937)" id="attenttouser_937" class="grad follow-btn notfollow attention">我要关注</a> <a href="javascript:login()" title="发私信" >我要私信</a> </div> <div class="user-msgbox-list flex_box_zd"> <h3 class="hpf">TA的文章</h3> <a href="https://www.ucloud.cn/yun/ut-937.html" class="box_hxjz">阅读更多</a> </div> <ul class="user-msgbox-ul"> <li><h3 class="ellipsis"><a href="https://www.ucloud.cn/yun/123623.html">[Python]题集②</a></h3> <p>阅读 1103<span>·</span>2021-11-17 09:33</p></li> <li><h3 class="ellipsis"><a href="https://www.ucloud.cn/yun/119714.html">外贸服务器建站怎么样?几种外贸自建站服务器的选择</a></h3> <p>阅读 1506<span>·</span>2021-09-09 11:53</p></li> <li><h3 class="ellipsis"><a href="https://www.ucloud.cn/yun/119146.html">plc和单片机哪个更有前途?为什么本科生都不搞plc?</a></h3> <p>阅读 2885<span>·</span>2021-09-04 16:45</p></li> <li><h3 class="ellipsis"><a href="https://www.ucloud.cn/yun/118260.html">AHJCDN:免备案CDN,无视DDOS/CC攻击的CDN,香港/美国GIA高速节点,提供免费套餐</a></h3> <p>阅读 1032<span>·</span>2021-08-17 10:12</p></li> <li><h3 class="ellipsis"><a href="https://www.ucloud.cn/yun/117446.html">前端面试CSS</a></h3> <p>阅读 2075<span>·</span>2019-08-30 15:55</p></li> <li><h3 class="ellipsis"><a href="https://www.ucloud.cn/yun/116670.html">Vue全局API总结</a></h3> <p>阅读 1655<span>·</span>2019-08-30 15:53</p></li> <li><h3 class="ellipsis"><a href="https://www.ucloud.cn/yun/116414.html">纯css实现下拉菜单</a></h3> <p>阅读 2284<span>·</span>2019-08-30 15:52</p></li> <li><h3 class="ellipsis"><a href="https://www.ucloud.cn/yun/114497.html">CSS - 实现垂直居中的几种方式</a></h3> <p>阅读 2446<span>·</span>2019-08-29 18:41</p></li> </ul> </div> <!-- 文章详情右侧广告--> <div class="com_layuiright-box"> <h6 class="top-com-title"><span>最新活动</span></h6> <div class="com_adbox"> <div class="layui-carousel" id="right-item"> <div carousel-item> <div> <a href="https://www.ucloud.cn/site/product/uhost.html" rel="nofollow"> <img src="https://www.ucloud.cn/yun/data/attach/220620/Z7TLrpAi.png" alt="云服务器"> </a> </div> <div> <a href="https://www.ucloud.cn/site/product/uhybrid.html" rel="nofollow"> <img src="https://www.ucloud.cn/yun/data/attach/220620/MWraMsBh.png" alt="混合云"> </a> </div> <div> <a href="https://www.ucloud.cn/site/product/ucloudstack.html" rel="nofollow"> <img src="https://www.ucloud.cn/yun/data/attach/220620/ifzOxvjW.png" alt="私有云"> </a> </div> <div> <a href="https://www.ucloud.cn/site/product/utrion.html" rel="nofollow"> <img src="https://www.ucloud.cn/yun/data/attach/220620/VDqwC1iN.png" alt="超融合服务器"> </a> </div> <div> <a href="https://www.ucloud.cn/site/product/uhybrid.html" rel="nofollow"> <img src="https://www.ucloud.cn/yun/data/attach/220630/pJwnviKN.png" alt="服务器托管"> </a> </div> <div> <a href="https://www.ucloud.cn/site/product/uxzone.html" rel="nofollow"> <img src="https://www.ucloud.cn/yun/data/attach/220630/CDb5uXxp.jpeg" alt="idc机房托管"> </a> </div> <div> <a href="https://www.ucloud.cn/site/active/network.html?ytag=seo" rel="nofollow"> <img src="https://www.ucloud.cn/yun/data/attach/230227/XWsSXmvm.png" alt="专线服务"> </a> </div> </div> </div> </div> <!-- banner结束 --> <div class="adhtml"> </div> <script> $(function(){ $.ajax({ type: "GET", url:"https://www.ucloud.cn/yun/ad/getad/1.html", cache: false, success: function(text){ $(".adhtml").html(text); } }); }) </script> </div> </div> </div> </div> </div> </section> <!-- wap拉出按钮 --> <div class="site-tree-mobile layui-hide"> <i class="layui-icon layui-icon-spread-left"></i> </div> <!-- wap遮罩层 --> <div class="site-mobile-shade"></div> <!--付费阅读 --> <div id="payread"> <div class="layui-form-item">阅读需要支付1元查看</div> <div class="layui-form-item"><button class="btn-right">支付并查看</button></div> </div> <script> var prei=0; $(".site-seo-depict pre").each(function(){ var html=$(this).html().replace("<code>","").replace("</code>","").replace('<code class="javascript hljs" codemark="1">',''); $(this).attr('data-clipboard-text',html).attr("id","pre"+prei); $(this).html("").append("<code>"+html+"</code>"); prei++; }) $(".site-seo-depict img").each(function(){ if($(this).attr("src").indexOf('data:image/svg+xml')!= -1){ $(this).remove(); } }) $("LINK[href*='style-49037e4d27.css']").remove(); $("LINK[href*='markdown_views-d7a94ec6ab.css']").remove(); layui.use(['jquery', 'layer','code'], function(){ $("pre").attr("class","layui-code"); $("pre").attr("lay-title",""); $("pre").attr("lay-skin",""); layui.code(); $(".layui-code-h3 a").attr("class","copycode").html("复制代码 ").attr("onclick","copycode(this)"); }); function copycode(target){ var id=$(target).parent().parent().attr("id"); var clipboard = new ClipboardJS("#"+id); clipboard.on('success', function(e) { e.clearSelection(); alert("复制成功") }); clipboard.on('error', function(e) { alert("复制失败") }); } //$(".site-seo-depict").html($(".site-seo-depict").html().slice(0, -5)); </script> <link rel="stylesheet" type="text/css" href="https://www.ucloud.cn/yun/static/js/neweditor/code/styles/tomorrow-night-eighties.css"> <script src="https://www.ucloud.cn/yun/static/js/neweditor/code/highlight.pack.js" type="text/javascript"></script> <script src="https://www.ucloud.cn/yun/static/js/clipboard.js"></script> <script>hljs.initHighlightingOnLoad();</script> <script> function setcode(){ var _html=''; document.querySelectorAll('pre code').forEach((block) => { var _tmptext=$.trim($(block).text()); if(_tmptext!=''){ _html=_html+_tmptext; console.log(_html); } }); } </script> <script> function payread(){ layer.open({ type: 1, title:"付费阅读", shadeClose: true, content: $('#payread') }); } // 举报 function jupao_tip(){ layer.open({ type: 1, title:false, shadeClose: true, content: $('#jubao') }); } $(".getcommentlist").click(function(){ var _id=$(this).attr("dataid"); var _tid=$(this).attr("datatid"); $("#articlecommentlist"+_id).toggleClass("hide"); var flag=$("#articlecommentlist"+_id).attr("dataflag"); if(flag==1){ flag=0; }else{ flag=1; //加载评论 loadarticlecommentlist(_id,_tid); } $("#articlecommentlist"+_id).attr("dataflag",flag); }) $(".add-comment-btn").click(function(){ var _id=$(this).attr("dataid"); $(".formcomment"+_id).toggleClass("hide"); }) $(".btn-sendartcomment").click(function(){ var _aid=$(this).attr("dataid"); var _tid=$(this).attr("datatid"); var _content=$.trim($(".commenttext"+_aid).val()); if(_content==''){ alert("评论内容不能为空"); return false; } var touid=$("#btnsendcomment"+_aid).attr("touid"); if(touid==null){ touid=0; } addarticlecomment(_tid,_aid,_content,touid); }) $(".button_agree").click(function(){ var supportobj = $(this); var tid = $(this).attr("id"); $.ajax({ type: "GET", url:"https://www.ucloud.cn/yun/index.php?topic/ajaxhassupport/" + tid, cache: false, success: function(hassupport){ if (hassupport != '1'){ $.ajax({ type: "GET", cache:false, url: "https://www.ucloud.cn/yun/index.php?topic/ajaxaddsupport/" + tid, success: function(comments) { supportobj.find("span").html(comments+"人赞"); } }); }else{ alert("您已经赞过"); } } }); }); function attenquestion(_tid,_rs){ $.ajax({ //提交数据的类型 POST GET type:"POST", //提交的网址 url:"https://www.ucloud.cn/yun/favorite/topicadd.html", //提交的数据 data:{tid:_tid,rs:_rs}, //返回数据的格式 datatype: "json",//"xml", "html", "script", "json", "jsonp", "text". //在请求之前调用的函数 beforeSend:function(){}, //成功返回之后调用的函数 success:function(data){ var data=eval("("+data+")"); console.log(data) if(data.code==2000){ layer.msg(data.msg,function(){ if(data.rs==1){ //取消收藏 $(".layui-layer-tips").attr("data-tips","收藏文章"); $(".layui-layer-tips").html('<i class="fa fa-heart-o"></i>'); } if(data.rs==0){ //收藏成功 $(".layui-layer-tips").attr("data-tips","已收藏文章"); $(".layui-layer-tips").html('<i class="fa fa-heart"></i>') } }) }else{ layer.msg(data.msg) } } , //调用执行后调用的函数 complete: function(XMLHttpRequest, textStatus){ postadopt=true; }, //调用出错执行的函数 error: function(){ //请求出错处理 postadopt=false; } }); } </script> <footer> <div class="layui-container"> <div class="flex_box_zd"> <div class="left-footer"> <h6><a href="https://www.ucloud.cn/"><img src="https://www.ucloud.cn/yun/static/theme/ukd//images/logo.png" alt="UCloud (优刻得科技股份有限公司)"></a></h6> <p>UCloud (优刻得科技股份有限公司)是中立、安全的云计算服务平台,坚持中立,不涉足客户业务领域。公司自主研发IaaS、PaaS、大数据流通平台、AI服务平台等一系列云计算产品,并深入了解互联网、传统企业在不同场景下的业务需求,提供公有云、混合云、私有云、专有云在内的综合性行业解决方案。</p> </div> <div class="right-footer layui-hidemd"> <ul class="flex_box_zd"> <li> <h6>UCloud与云服务</h6> <p><a href="https://www.ucloud.cn/site/about/intro/">公司介绍</a></p> <p><a href="https://zhaopin.ucloud.cn/" >加入我们</a></p> <p><a href="https://www.ucloud.cn/site/ucan/onlineclass/">UCan线上公开课</a></p> <p><a href="https://www.ucloud.cn/site/solutions.html" >行业解决方案</a></p> <p><a href="https://www.ucloud.cn/site/pro-notice/">产品动态</a></p> </li> <li> <h6>友情链接</h6> <p><a href="https://www.compshare.cn/?ytag=seo">GPU算力平台</a></p> <p><a href="https://www.ucloudstack.com/?ytag=seo">UCloud私有云</a></p> <p><a href="https://www.surfercloud.com/">SurferCloud</a></p> <p><a href="https://www.uwin-link.com/">工厂仿真软件</a></p> <p><a href="https://pinex.it/">Pinex</a></p> <p><a href="https://www.picpik.ai/zh">AI绘画</a></p> </li> <li> <h6>社区栏目</h6> <p><a href="https://www.ucloud.cn/yun/column/index.html">专栏文章</a></p> <p><a href="https://www.ucloud.cn/yun/udata/">专题地图</a></p> </li> <li> <h6>常见问题</h6> <p><a href="https://www.ucloud.cn/site/ucsafe/notice.html" >安全中心</a></p> <p><a href="https://www.ucloud.cn/site/about/news/recent/" >新闻动态</a></p> <p><a href="https://www.ucloud.cn/site/about/news/report/">媒体动态</a></p> <p><a href="https://www.ucloud.cn/site/cases.html">客户案例</a></p> <p><a href="https://www.ucloud.cn/site/notice/">公告</a></p> </li> <li> <span><img src="https://static.ucloud.cn/7a4b6983f4b94bcb97380adc5d073865.png" alt="优刻得"></span> <p>扫扫了解更多</p></div> </div> <div class="copyright">Copyright © 2012-2023 UCloud 优刻得科技股份有限公司<i>|</i><a rel="nofollow" href="http://beian.miit.gov.cn/">沪公网安备 31011002000058号</a><i>|</i><a rel="nofollow" href="http://beian.miit.gov.cn/"></a> 沪ICP备12020087号-3</a><i>|</i> <script type="text/javascript" src="https://gyfk12.kuaishang.cn/bs/ks.j?cI=197688&fI=125915" charset="utf-8"></script> <script> var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?290c2650b305fc9fff0dbdcafe48b59d"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script> <!-- Global site tag (gtag.js) - Google Analytics --> <script async src="https://www.googletagmanager.com/gtag/js?id=G-DZSMXQ3P9N"></script> <script> window.dataLayer = window.dataLayer || []; function gtag(){dataLayer.push(arguments);} gtag('js', new Date()); gtag('config', 'G-DZSMXQ3P9N'); </script> <script> (function(){ var el = document.createElement("script"); el.src = "https://lf1-cdn-tos.bytegoofy.com/goofy/ttzz/push.js?99f50ea166557aed914eb4a66a7a70a4709cbb98a54ecb576877d99556fb4bfc3d72cd14f8a76432df3935ab77ec54f830517b3cb210f7fd334f50ccb772134a"; el.id = "ttzz"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(el, s); })(window) </script></div> </div> </footer> </body> <script src="https://www.ucloud.cn/yun/static/theme/ukd/js/common.js"></script> <<script type="text/javascript"> $(".site-seo-depict *,.site-content-answer-body *,.site-body-depict *").css("max-width","100%"); </script> </html>