扒取方法
</>复制代码
public function index()
{
$url = "http://www.dytt8.net/";
// $url = "Public/txt/movies.txt";
$content = file_get_contents($url);
$content = iconv("gb2312", "utf-8//IGNORE",$content);
$reg = "|(.*?)|is";//正则匹配div
$res = preg_match_all($reg, $content, $match);
$count = count($match[1]);
//有数据
if($count)
{
$arr = array();
$array = array();
for($i=0;$i<$count;$i++)
{
$a = "|]*>(.*?)|is"; //匹配value
$patten="//";//匹配href值
preg_match_all($a, $match[1][$i], $mat);
preg_match_all($patten, $match[1][$i], $href);
foreach($mat[1] as $key=>$val){
$array = array(
"href"=>"http://www.dytt8.net/".$href[1][$key],
"name"=>$val,
"ctime"=>time(),
);
array_push($arr,$array);
}
}
$res = $this->Movies->addAll($arr);
if($res)
{
echo "抓取成功!";
}
else
{
echo "抓取失败!";
}
}
}
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/30435.html
摘要:按照同样的方式扒取所有的自己的用户。但是为了尊重人家隐私权,好吧,就这样吧,我也不能做啥。 这几天我很焦虑,受不了那些先follow我,等我follow回去后又unfollow的人,因为是他们先follow我的,我出于人道主义想着互粉一下的,结果这么对我,太不厚道了。github又不像微博那样有互粉标志,这真的整得我很心烦,于是想着写一个爬虫,把这些坏人揪出来~第一步,当然是放出代码啦...
摘要:对于数据科学而言只是一个工具。扒取网站前端的源码应该是一个学习开发人员必备的技能,具备了此能力你可以快速搭建起一个网站。接下来我会把崔大佬的个人博客网站使用实现。 1、准备 工具:仿站小工具+V9.0 工具获取方式一: 关注微信公众号 微信公众号『stormsha』,后台回复『仿站工具』获取工具 工具获取方式二: 仿站小工具官网 https://smalltool.github.io/...
摘要:对于数据科学而言只是一个工具。扒取网站前端的源码应该是一个学习开发人员必备的技能,具备了此能力你可以快速搭建起一个网站。接下来我会把崔大佬的个人博客网站使用实现。 1、准备 工具:仿站小工具+V9.0 工具获取方式一: 关注微信公众号 微信公众号『stormsha』,后台回复『仿站工具』获取工具 工具获取方式二: 仿站小工具官网 https://smalltool.github.io/...
阅读 1606·2021-08-09 13:47
阅读 2855·2019-08-30 15:55
阅读 3599·2019-08-29 15:42
阅读 1179·2019-08-29 13:45
阅读 3119·2019-08-29 12:33
阅读 1841·2019-08-26 11:58
阅读 1070·2019-08-26 10:19
阅读 2501·2019-08-23 18:00