资讯专栏INFORMATION COLUMN

php 扒取网页数据

Jonathan Shieber / 525人阅读

扒取方法

</>复制代码

  1. public function index()
  2. {
  3. $url = "http://www.dytt8.net/";
  4. // $url = "Public/txt/movies.txt";
  5. $content = file_get_contents($url);
  6. $content = iconv("gb2312", "utf-8//IGNORE",$content);
  7. $reg = "|
    (.*?)
    |is";//正则匹配div
  8. $res = preg_match_all($reg, $content, $match);
  9. $count = count($match[1]);
  10. //有数据
  11. if($count)
  12. {
  13. $arr = array();
  14. $array = array();
  15. for($i=0;$i<$count;$i++)
  16. {
  17. $a = "|]*>(.*?)|is"; //匹配value
  18. $patten="//";//匹配href值
  19. preg_match_all($a, $match[1][$i], $mat);
  20. preg_match_all($patten, $match[1][$i], $href);
  21. foreach($mat[1] as $key=>$val){
  22. $array = array(
  23. "href"=>"http://www.dytt8.net/".$href[1][$key],
  24. "name"=>$val,
  25. "ctime"=>time(),
  26. );
  27. array_push($arr,$array);
  28. }
  29. }
  30. $res = $this->Movies->addAll($arr);
  31. if($res)
  32. {
  33. echo "抓取成功!";
  34. }
  35. else
  36. {
  37. echo "抓取失败!";
  38. }
  39. }
  40. }

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/30435.html

相关文章

  • python爬虫爬取github所有follwers初级版

    摘要:按照同样的方式扒取所有的自己的用户。但是为了尊重人家隐私权,好吧,就这样吧,我也不能做啥。 这几天我很焦虑,受不了那些先follow我,等我follow回去后又unfollow的人,因为是他们先follow我的,我出于人道主义想着互粉一下的,结果这么对我,太不厚道了。github又不像微博那样有互粉标志,这真的整得我很心烦,于是想着写一个爬虫,把这些坏人揪出来~第一步,当然是放出代码啦...

    stormgens 评论0 收藏0
  • 个人博客一|抓取崔庆才个人博客网站前端源码

    摘要:对于数据科学而言只是一个工具。扒取网站前端的源码应该是一个学习开发人员必备的技能,具备了此能力你可以快速搭建起一个网站。接下来我会把崔大佬的个人博客网站使用实现。 1、准备 工具:仿站小工具+V9.0 工具获取方式一: 关注微信公众号 微信公众号『stormsha』,后台回复『仿站工具』获取工具 工具获取方式二: 仿站小工具官网 https://smalltool.github.io/...

    googollee 评论0 收藏0
  • 个人博客一|抓取崔庆才个人博客网站前端源码

    摘要:对于数据科学而言只是一个工具。扒取网站前端的源码应该是一个学习开发人员必备的技能,具备了此能力你可以快速搭建起一个网站。接下来我会把崔大佬的个人博客网站使用实现。 1、准备 工具:仿站小工具+V9.0 工具获取方式一: 关注微信公众号 微信公众号『stormsha』,后台回复『仿站工具』获取工具 工具获取方式二: 仿站小工具官网 https://smalltool.github.io/...

    yintaolaowanzi 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<