php 扒取网页数据

Jonathan Shieber 发布于2019-07-01 12:18 / 525人阅读

扒取方法

</>复制代码 
    public function index()
    {
        $url = "http://www.dytt8.net/";
       // $url = "Public/txt/movies.txt";
        $content = file_get_contents($url);
        $content = iconv("gb2312", "utf-8//IGNORE",$content);
        $reg = "|(.*?)
|is";//正则匹配div
        $res = preg_match_all($reg, $content, $match);
        $count = count($match[1]);
        //有数据
        if($count)
        {
            $arr = array();
            $array = array();
            for($i=0;$i<$count;$i++)
            {
                $a = "|]*>(.*?)|is"; //匹配value
                $patten="//";//匹配href值
                preg_match_all($a, $match[1][$i], $mat);
                preg_match_all($patten, $match[1][$i], $href);
                foreach($mat[1] as $key=>$val){
                    $array = array(
                         "href"=>"http://www.dytt8.net/".$href[1][$key],
                         "name"=>$val,
                         "ctime"=>time(),
                    );
                    array_push($arr,$array);
                }
            }
            $res = $this->Movies->addAll($arr);
            if($res)
            {
                echo "抓取成功！";
            }
            else
            {
                echo "抓取失败！";
            }
        }
    }

GPU云服务器云服务器网页php数据库 php网页显示数据库 php网页 php 网页文件

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/30435.html

python爬虫爬取github所有follwers初级版

摘要：按照同样的方式扒取所有的自己的用户。但是为了尊重人家隐私权，好吧，就这样吧，我也不能做啥。这几天我很焦虑，受不了那些先follow我，等我follow回去后又unfollow的人，因为是他们先follow我的，我出于人道主义想着互粉一下的，结果这么对我，太不厚道了。github又不像微博那样有互粉标志，这真的整得我很心烦，于是想着写一个爬虫，把这些坏人揪出来~第一步，当然是放出代码啦...

stormgens 2019-07-30 16:56 评论0 收藏0
个人博客一|抓取崔庆才个人博客网站前端源码

摘要：对于数据科学而言只是一个工具。扒取网站前端的源码应该是一个学习开发人员必备的技能，具备了此能力你可以快速搭建起一个网站。接下来我会把崔大佬的个人博客网站使用实现。 1、准备工具：仿站小工具+V9.0 工具获取方式一：关注微信公众号微信公众号『stormsha』，后台回复『仿站工具』获取工具工具获取方式二：仿站小工具官网 https://smalltool.github.io/...

googollee 2019-07-31 10:05 评论0 收藏0
个人博客一|抓取崔庆才个人博客网站前端源码

摘要：对于数据科学而言只是一个工具。扒取网站前端的源码应该是一个学习开发人员必备的技能，具备了此能力你可以快速搭建起一个网站。接下来我会把崔大佬的个人博客网站使用实现。 1、准备工具：仿站小工具+V9.0 工具获取方式一：关注微信公众号微信公众号『stormsha』，后台回复『仿站工具』获取工具工具获取方式二：仿站小工具官网 https://smalltool.github.io/...

yintaolaowanzi 2019-06-28 17:03 评论0 收藏0