资讯专栏INFORMATION COLUMN

Laravel 下使用 Guzzle 编写多线程爬虫实战

hzx / 1361人阅读

摘要:本文经授权转自社区说明库是一套强大的请求套件。本文重点演示如何使用发起多线程请求。

本文经授权转自 PHPHub 社区

说明

Guzzle 库是一套强大的 PHP HTTP 请求套件。

本文重点演示如何使用 Guzzle 发起多线程请求。

参考

Github 官方用户接口文档

Guzzle 并发请求文档

Laravel LTS 5.1 - Artisan 文档

创建命令 1. 运行命令行创建命令
php artisan make:console MultithreadingRequest --command=test:multithreading-request
2. 注册命令

编辑 app/Console/Kernel.php,在 $commands 数组中增加:

CommandsMultithreadingRequest::class,
3. 测试下命令

修改 app/Console/Commands/MultithreadingRequest.php 文件,在 handle 方法中增加:

$this->info("hello");

输出:

$ php artisan test:multithreading-request
hello
4. 安装 Guzzle
composer require guzzlehttp/guzzle "6.2"
直接贴代码

一份可运行的代码胜过千言万语呀。

下面代码是 app/Console/Commands/MultithreadingRequest.php 里的内容:

totalPageCount = count($this->users);

        $client = new Client();

        $requests = function ($total) use ($client) {
            foreach ($this->users as $key => $user) {

                $uri = "https://api.github.com/users/" . $user;
                yield function() use ($client, $uri) {
                    return $client->getAsync($uri);
                };
            }
        };

        $pool = new Pool($client, $requests($this->totalPageCount), [
            "concurrency" => $this->concurrency,
            "fulfilled"   => function ($response, $index){

                $res = json_decode($response->getBody()->getContents());

                $this->info("请求第 $index 个请求,用户 " . $this->users[$index] . " 的 Github ID 为:" .$res->id);

                $this->countedAndCheckEnded();
            },
            "rejected" => function ($reason, $index){
                $this->error("rejected" );
                $this->error("rejected reason: " . $reason );
                $this->countedAndCheckEnded();
            },
        ]);

        // 开始发送请求
        $promise = $pool->promise();
        $promise->wait();
    }

    public function countedAndCheckEnded()
    {
        if ($this->counter < $this->totalPageCount){
            $this->counter++;
            return;
        }
        $this->info("请求结束!");
    }
}

运行结果:

$ php artisan test:multithreading-request
请求第 5 个请求,用户 zhengjinghua 的 Github ID 为:3413430
请求第 6 个请求,用户 NauxLiu 的 Github ID 为:9570112
请求第 0 个请求,用户 CycloneAxe 的 Github ID 为:6268176
请求第 1 个请求,用户 appleboy 的 Github ID 为:21979
请求第 2 个请求,用户 Aufree 的 Github ID 为:5310542
请求第 3 个请求,用户 lifesign 的 Github ID 为:2189610
请求第 4 个请求,用户 overtrue 的 Github ID 为:1472352
请求结束!

注意请求是同时发送过去的,因为 concurrency 并发设置了 7,所以 7 个请求同时发送,只不过接收到返回的时间点不一样。

完。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/21567.html

相关文章

  • 爬虫 - 收藏集 - 掘金

    摘要:使用的爬虫知乎用户数据爬取和分析阅读掘金背景说明小拽利用的写的爬虫,实验性的爬取了知乎用户的基本信息同时,针对爬取的数据,进行了简单的分析呈现。 Python 知乎爬虫(最新) - 后端 - 掘金 环境:python3.x外部依赖包:requestsgithub项目地址 主要的问题:模拟登陆: 知乎现在改用https请求了,数据加密,但是问题不大,重要的是网页数据改动了,而且在请求时后...

    zzbo 评论0 收藏0
  • Beanbun: 简单开放的 PHP 爬虫框架

    摘要:是用编写的多进程网络爬虫框架,具有良好的开放性高可扩展性。它要天然支持分布式,支持多进程或线程,利用,可以方便的建立起一个功能强大的爬虫。 Beanbun Beanbun 是用 PHP 编写的多进程网络爬虫框架,具有良好的开放性、高可扩展性。 项目地址:https://github.com/kiddyuchin...文档地址:http://beanbun.org 由来 我希望有这样一...

    mayaohua 评论0 收藏0
  • Laravel学习笔记之Core Concepts in Guzzle Package——Strea

    摘要:使用了来表示该,该接口也是对的抽象,暴露了一些常用方法判断是否满足要求的方法的读写相关操作获取元数据方法操作指针相关方法等等。本篇主要学习下相关使用。后续还会分享相关使用,到时见。 说明:本文主要学习guzzlehttp/guzzle package的使用,该package提供了一套发送HTTP请求API,就像phpunit package, mockery package, symf...

    singerye 评论0 收藏0
  • PHP相关

    摘要:的机器学习库的机器学习库,包括算法交叉验证神经网络等内容。在即将到来的大会上,她将和大家分享在机器学习领域的全新可能。入门总结入门相关,如安装配置基本使用等。 基于 Swoole 开发 PHP 扩展 Swoole-1.9.7 增加了一个新特性,可以基于 Swoole 使用 C++ 语言开发扩展模块,在扩展模块中可以注册 PHP 内置函数和类。现在可以基于 Swoole 来编写 PHP ...

    lewinlee 评论0 收藏0
  • PHP新手开发者的路线建议

    摘要:年开发者应该熟练使用,并且知道版本更新内容。对开发和运维人员来说,最希望的就是一次性创建或配置,可以在任意地方正常运行。是标准规范,是开发的实践标准。对开发者来说语言推荐和,全栈的选择非常多,推荐热门的 前言 在前天(2018-08-02)已经发布了PHP 7.3.0.beta1 Released 如果你还没有使用 PHP7 ,那真的很遗憾。2018年PHP开发者应该熟练使用 PHP7...

    klinson 评论0 收藏0

发表评论

0条评论

hzx

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<