资讯专栏INFORMATION COLUMN

基于PHP/CURL/codeIgniter的Spider Webbot爬虫[0]-使用原生PHP的

masturbator / 729人阅读

摘要:学了天的,写了一个爬虫开源项目。现在把所有的笔记放到记录下来,算是一个纪念。定义抓取下载的档案对目标档案建立一个网络连接。

学了7天的PHP/CURL,写了一个爬虫开源项目。

现在把所有的笔记放到Segmentfault记录下来,算是一个纪念。

https://github.com/hosinoruri/Omoikane

$target="http://www.WebbotsSpidersScreenScrapers.com/hello_world.html";//定义抓取下载的档案
//$file_handle=fopen($target, "r");//对目标档案建立一个网络连接。$file_handle只是一个文件名
$downloaded_page_array=file($target);// this is a array

//显示档案的内容
for ($xx=0; $xx < count($downloaded_page_array); $xx++)
echo $downloaded_page_array[$xx];//抓取csv和excel文档特别有效,HTML效果不大
//使用file()把从目标网站抓取下来的文件保存成数组,通过for输出,以$xx作为一个始终少于抓取下来的数组
//下标来限制输出数目,通过循环里面打印数组输出完整的网页

/*
//取得档案
while (!feof($file_handle)) {
echo fgets($file_handle,4096);//程序使用fget(),以4096位一块的方式取得并显示这个档案,直到下载完毕
}
fclose($file_handle);//关闭这个连接
//使用可以连html标记也打印出来
*/

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/20811.html

相关文章

  • 基于PHP/CURL/codeIgniterSpider Webbot爬虫[6]-PHP关于正则表

    摘要:模式,其实就是要查找的字段。不能是数字,字母。如果是数字和字母的话,要用来表示替换字段要替换上的,可以是任意操作目标,这里可以是一段,也可以使一个变量,或者一个。 preg_replace(pattern,replacement,subject) pattern模式,其实就是要查找的字段。不能是数字,字母。如果是数字和字母的话,要用/string/来表示 replacement替换字...

    yzd 评论0 收藏0
  • 基于PHP/CURL/codeIgniterSpider Webbot爬虫[8]-预判网站支持压缩

    摘要:预判压缩,如果支持压缩则优先使用捕捉档案并且压缩范例得到捕捉到的档案,并且进行压缩,并且输出压缩前后的大小移除标签还可以添加移除所有空格输出一张显示用的表格 预判压缩,如果支持压缩则优先使用 $header[]=Accept-Encoding:compress,gzip; curl_setopt($curl_session,CURLOPT_HTTPHEADER,$header); ...

    Java3y 评论0 收藏0
  • 基于PHP/CURL/codeIgniterSpider Webbot爬虫[5]-常用字符串处理函

    stristr(haystack,needle) 区分大小写 干草堆和缝衣针//判断haystack中是否存在needle。输出bool真假 strstr不区分大小写 strip_tags($string) 移除其中的HTML和PHP标记 str_replace( ,,$string)//移除定位符号 str_replace( ,,$string)//移除连续的空白 str_replace(...

    HackerShell 评论0 收藏0
  • 基于PHP/CURL/codeIgniterSpider Webbot爬虫[2]-使用LIB_pa

    摘要:类似于返回的是数组格式,,其中,是需要被解释的字符串,这里使用获得中的网站首页作为目标是开始的字符,这里抓取作为开始因为标签的属性是这样做就得到一个网站的所有关键字属性可以把抓取的之类的标签转化成字符串,不让服务器进行解释插入到输出的前后, ===================================================== parse_array类似于re...

    light 评论0 收藏0
  • 基于PHP/CURL/codeIgniterSpider Webbot爬虫[3]=使用get_at

    摘要:定义目标和参照页定义抓取下载的档案下载网页解释图像标签打印图像地址只要是标签,不论是什么文件,其地址都会被抓取下来

    shiyang6017 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<