资讯专栏INFORMATION COLUMN

Scrapyd部署爬虫

laoLiueizo / 2419人阅读

摘要:部署爬虫准备工作安装安装安装安装地址安装完成以后将所在目录配置到环境变量中开始部署修改项目目录下的文件,修改如下加上将前面的删除的名字,可以使用默认的,当然也可以改变在任意目录下的打开终端,输入观察是否运行成功,运行成功的话,就可以打开

Scrapyd部署爬虫 准备工作

安装scrapyd: pip install scrapyd

安装scrapyd-client : pip install scrapyd-client

安装curl:[安装地址](http://ono60m7tl.bkt.clouddn.com/curl.exe),安装完成以后将所在目录配置到环境变量中

开始部署

修改scrapy项目目录下的scrapy.cfg文件,修改如下

[deploy:JD_Spider]    #加上target   :name
url = http://localhost:6800/   #将前面的#删除
project = JD               #project的名字,可以使用默认的,当然也可以改变

在任意目录下的打开终端,输入scrapyd,观察是否运行成功,运行成功的话,就可以打开http://localhost:6800看是否正常显示,如果正常显示则看到下面的这张图,这里的JD是部署之后才能看到的,现在是看不到的,所以没出现也不要担心:

在项目的根目录下运行如下的命令:python E:python2.7Scriptsscrapyd-deploy target -p project,这里的E:python2.7Scripts是你的python安装目录,Scripts是安装目录下的一个文件夹,注意前面一定要加上python,target是在前面scrapy.cfg中设置的deploy:JD_Spider,JD_Spider就是target,project 是JD,因此这个完整的命令是python E:python2.7Scriptsscrapyd-deploy JD_Spider -p JD,现在项目就部署到上面了,这下网页上就有JD了,详情请见上图

验证是否成功,你可以在网页上看有没有显示你的工程名字,另外在根目录下输入python E:python2.7Scriptsscrapyd-deploy -l就能列出你所有部署过的项目了

启动爬虫:curl http://localhost:6800/schedule.json -d project=myproject -d spider=spider_name,这里的project填入的是项目名,spider_name填入的是你的爬虫中定义的name,运行我的实例完整的代码为:curl http://localhost:6800/schedule.json -d project=JD -d spider=spider,这里将会显示如下信息:

#这里的jobid比较重要,下面会用到这个取消爬虫
{"status": "ok", "jobid": "3013f9d1283611e79a63acb57dec5d04", "node_name": "DESKTOP-L78TJQ7"}

取消爬虫:curl http://localhost:6800/cancel.json -d project=myproject -d job=jobid,jobid就是上面的提到过的,如果取消我的这个实例代码如:curl http://localhost:6800/cancel.json -d project=JD -d job=3013f9d1283611e79a63acb57dec5d04,那么它的状态就会变成如下:

{"status": "ok", "prevstate": "running", "node_name": "DESKTOP-L78TJQ7"}

列出项目:curl http://localhost:6800/listprojects.json,下面将会出现你已经部署的项目

删除项目:curl http://localhost:6800/delproject.json -d project=myproject

列出版本:curl http://localhost:6800/listversions.json?project=myproject,这里的project是项目的名字,是在scrapy.cfg设置的

列出爬虫:curl http://localhost:6800/listspiders.json?project=myproject这里的project是项目的名字,是在scrapy.cfg设置的

列出job:curl http://localhost:6800/listjobs.json?project=myproject这里的project是项目的名字,是在scrapy.cfg设置的

删除版本:curl http://localhost:6800/delversion.json -d project=myproject -d version=r99,这里的version是自己的项目版本号,在删除之前需要查看版本号

更多文章请看本人博客

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/38601.html

相关文章

  • Python3网络爬虫实战---12、部署相关库的安装:Docker、Scrapyd

    摘要:阿里云安装脚本安装脚本两个脚本可以任选其一,速度都非常不错。推荐的加速器有和阿里云。阿里云不同平台的镜像加速方法配置可以参考的官方文档。以上便是的安装方式说明。上一篇文章网络爬虫实战爬虫框架的安装下一篇文章网络爬虫实战部署相关库 上一篇文章:Python3网络爬虫实战---11、爬虫框架的安装:ScrapySplash、ScrapyRedis下一篇文章:Python3网络爬虫实战---...

    ityouknow 评论0 收藏0
  • 如何通过 Scrapyd + ScrapydWeb 简单高效地部署和监控分布式爬虫项目

    摘要:支持一键部署项目到集群。添加邮箱帐号设置邮件工作时间和基本触发器,以下示例代表每隔小时或当某一任务完成时,并且当前时间是工作日的点,点和点,将会发送通知邮件。除了基本触发器,还提供了多种触发器用于处理不同类型的,包括和等。 showImg(https://segmentfault.com/img/remote/1460000018772067?w=1680&h=869); 安装和配置 ...

    zsirfs 评论0 收藏0
  • scrapyd部署爬虫项目到LINUX服务器

    摘要:,首先把爬虫项目上传到服务器我的服务器架设在公司内网里。部署名会在后面的部署项目环节用到。新项目创建创建完成。,部署项目的文件想要爬虫程序真正进行抓取起来,还有一步。选择文件,部署文件至此,部署爬虫项目就结束了。 1,首先把scrapy爬虫项目上传到服务器 我的服务器架设在公司内网里。所以在这里使用WinSCP作为上传工具。showImg(https://segmentfault....

    cppowboy 评论0 收藏0
  • 部署Scrapy分布式爬虫项目

    摘要:以上示例代表当发现条或条以上的级别的时,自动停止当前任务,如果当前时间在邮件工作时间内,则同时发送通知邮件。 showImg(https://segmentfault.com/img/remote/1460000018052810); 一、需求分析 初级用户: 只有一台开发主机 能够通过 Scrapyd-client 打包和部署 Scrapy 爬虫项目,以及通过 Scrapyd JS...

    techstay 评论0 收藏0
  • CentOS7之Scrapy爬虫部署

    摘要:安装配置文件内容如下守护进程,用这个的原因实在是因为太脆弱了,一看不住就挂了安装配置导入默认配置链接管理设置管理进程启动创建文件内容如下启动查看如一切正常常用命令查看状态重新载入重启任务可以更新配置检查日志爬虫部署部署项目目录 scrapyd 安装: sudo pip install scrapyd 配置: #文件~/.scrapyd.conf #内容如下: [scrapyd] egg...

    elisa.yang 评论0 收藏0
  • CentOS7之Scrapy爬虫部署

    摘要:安装配置文件内容如下守护进程,用这个的原因实在是因为太脆弱了,一看不住就挂了安装配置导入默认配置链接管理设置管理进程启动创建文件内容如下启动查看如一切正常常用命令查看状态重新载入重启任务可以更新配置检查日志爬虫部署部署项目目录 scrapyd 安装: sudo pip install scrapyd 配置: #文件~/.scrapyd.conf #内容如下: [scrapyd] egg...

    scq000 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<