资讯专栏INFORMATION COLUMN

基于PHP/CURL/codeIgniter的Spider Webbot爬虫[8]-预判网站支持压缩

Java3y / 2555人阅读

摘要:预判压缩,如果支持压缩则优先使用捕捉档案并且压缩范例得到捕捉到的档案,并且进行压缩,并且输出压缩前后的大小移除标签还可以添加移除所有空格输出一张显示用的表格

预判压缩,如果支持压缩则优先使用

$header[]="Accept-Encoding:compress,gzip";
curl_setopt($curl_session,CURLOPT_HTTPHEADER,$header);

捕捉档案并且压缩范例

include("LIB_http.php");

// define the page
$target="http://xxx";
$ref="";
$method="GET";
$data_array="";
$web_page=http_get($target,$ref,$method,$data_array,EXCL_HEAD);

// 得到捕捉到的档案,并且进行压缩,并且输出压缩前后的大小
$unzip_size=strlen($webpage["FILE]);
$zip_size=strlen(gzcompress($web_page["FILE"],$compression_value=9));
//$noformat_size=strlen(strip_tags($web_page["FILE"]));//strip_tags移除HTML标签
// 还可以添加trim移除所有空格

输出一张显示用的HTML表格(size)






Welcome to Omoikane

Compression report for
Unzip zip
bytes bytes







文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/31860.html

相关文章

  • 基于PHP/CURL/codeIgniterSpider Webbot爬虫[2]-使用LIB_pa

    摘要:类似于返回的是数组格式,,其中,是需要被解释的字符串,这里使用获得中的网站首页作为目标是开始的字符,这里抓取作为开始因为标签的属性是这样做就得到一个网站的所有关键字属性可以把抓取的之类的标签转化成字符串,不让服务器进行解释插入到输出的前后, ===================================================== parse_array类似于re...

    light 评论0 收藏0
  • 基于PHP/CURL/codeIgniterSpider Webbot爬虫[0]-使用原生PHP

    摘要:学了天的,写了一个爬虫开源项目。现在把所有的笔记放到记录下来,算是一个纪念。定义抓取下载的档案对目标档案建立一个网络连接。 学了7天的PHP/CURL,写了一个爬虫开源项目。 现在把所有的笔记放到Segmentfault记录下来,算是一个纪念。 https://github.com/hosinoruri/Omoikane $target=http://www.WebbotsSp...

    masturbator 评论0 收藏0
  • 基于PHP/CURL/codeIgniterSpider Webbot爬虫[6]-PHP关于正则表

    摘要:模式,其实就是要查找的字段。不能是数字,字母。如果是数字和字母的话,要用来表示替换字段要替换上的,可以是任意操作目标,这里可以是一段,也可以使一个变量,或者一个。 preg_replace(pattern,replacement,subject) pattern模式,其实就是要查找的字段。不能是数字,字母。如果是数字和字母的话,要用/string/来表示 replacement替换字...

    yzd 评论0 收藏0
  • 基于PHP/CURL/codeIgniterSpider Webbot爬虫[9]捕捉图像并且建立t

    1.配置好PHP的gd2模块 2.调用LIB_thumbnail.php模块 Full-size imageshowImg(test.jpg src=https://cdn.segmentfault.com/v-5cc2cd8e/global/img/squares.svg> Thumbnail imageshowImg(thumbnail.jpg src=https://cdn.segme...

    hss01248 评论0 收藏0
  • 基于PHP/CURL/codeIgniterSpider Webbot爬虫[5]-常用字符串处理函

    stristr(haystack,needle) 区分大小写 干草堆和缝衣针//判断haystack中是否存在needle。输出bool真假 strstr不区分大小写 strip_tags($string) 移除其中的HTML和PHP标记 str_replace( ,,$string)//移除定位符号 str_replace( ,,$string)//移除连续的空白 str_replace(...

    HackerShell 评论0 收藏0

发表评论

0条评论

Java3y

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<