资讯专栏INFORMATION COLUMN

基于PHP/CURL/codeIgniter的Spider Webbot爬虫[5]-常用字符串处理函

HackerShell / 405人阅读

stristr(haystack,needle) 区分大小写 干草堆和缝衣针//判断haystack中是否存在needle。输出bool真假
strstr不区分大小写

strip_tags($string) 移除其中的HTML和PHP标记
str_replace(" ","",$string)//移除定位符号
str_replace(" ","",$string)//移除连续的空白
str_replace(" ","",$string)//移除换行符号

similar_text($a,$b);统计两个string的相同字符数
echo similar_text("first", "second",$persent);
echo $persent;//输出相似的百分比

自建函数
str_compare($a,$b)
//如果$b被$a完全包含,则相似度会输出100%
//是用similar_text的话,会输出一个较低的百分比

/*
//str_compare($a,$b);
//增强版的similar_text,可以对完全包容的字符进行容错,如果$2被$1完全包含,则输出100%
function str_compare($str1, $str2) {
$count = 0;

$str1 = preg_replace("[^a-z]", " ", strtolower($str1));
while(strstr($str1, "  ")) {
    $str1 = str_replace("  ", " ", $str1);
}
$str1 = explode(" ", $str1);

$str2 = preg_replace("[^a-z]", " ", strtolower($str2));
while(strstr($str2, "  ")) {
    $str2 = str_replace("  ", " ", $str2);
}
$str2 = explode(" ", $str2);

if(count($str1)

}
*/

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/20806.html

相关文章

  • 基于PHP/CURL/codeIgniterSpider Webbot爬虫[6]-PHP关于正则表

    摘要:模式,其实就是要查找的字段。不能是数字,字母。如果是数字和字母的话,要用来表示替换字段要替换上的,可以是任意操作目标,这里可以是一段,也可以使一个变量,或者一个。 preg_replace(pattern,replacement,subject) pattern模式,其实就是要查找的字段。不能是数字,字母。如果是数字和字母的话,要用/string/来表示 replacement替换字...

    yzd 评论0 收藏0
  • 基于PHP/CURL/codeIgniterSpider Webbot爬虫[2]-使用LIB_pa

    摘要:类似于返回的是数组格式,,其中,是需要被解释的字符串,这里使用获得中的网站首页作为目标是开始的字符,这里抓取作为开始因为标签的属性是这样做就得到一个网站的所有关键字属性可以把抓取的之类的标签转化成字符串,不让服务器进行解释插入到输出的前后, ===================================================== parse_array类似于re...

    light 评论0 收藏0
  • 基于PHP/CURL/codeIgniterSpider Webbot爬虫[0]-使用原生PHP

    摘要:学了天的,写了一个爬虫开源项目。现在把所有的笔记放到记录下来,算是一个纪念。定义抓取下载的档案对目标档案建立一个网络连接。 学了7天的PHP/CURL,写了一个爬虫开源项目。 现在把所有的笔记放到Segmentfault记录下来,算是一个纪念。 https://github.com/hosinoruri/Omoikane $target=http://www.WebbotsSp...

    masturbator 评论0 收藏0
  • 基于PHP/CURL/codeIgniterSpider Webbot爬虫[8]-预判网站支持压缩

    摘要:预判压缩,如果支持压缩则优先使用捕捉档案并且压缩范例得到捕捉到的档案,并且进行压缩,并且输出压缩前后的大小移除标签还可以添加移除所有空格输出一张显示用的表格 预判压缩,如果支持压缩则优先使用 $header[]=Accept-Encoding:compress,gzip; curl_setopt($curl_session,CURLOPT_HTTPHEADER,$header); ...

    Java3y 评论0 收藏0
  • 基于PHP/CURL/codeIgniterSpider Webbot爬虫[9]捕捉图像并且建立t

    1.配置好PHP的gd2模块 2.调用LIB_thumbnail.php模块 Full-size imageshowImg(test.jpg src=https://cdn.segmentfault.com/v-5cc2cd8e/global/img/squares.svg> Thumbnail imageshowImg(thumbnail.jpg src=https://cdn.segme...

    hss01248 评论0 收藏0

发表评论

0条评论

HackerShell

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<