Scrapy入门的点点滴滴（一）

DesGemini 发布于2019-07-30 14:25 / 981人阅读

摘要：从刚开始接触到使用进行爬虫，经历了许多，不懂的各种百度，硬是从不会进步成入门了，抱怨的话不多说，进入正题。

从刚开始接触Python2.7到使用Scrapy1.3进行爬虫，经历了许多，不懂的各种百度，硬是从不会进步成入门了，抱怨的话不多说，进入正题。

写这篇文章的目的在于总结这段时间学习Scrapy的到的一些经验

环境搭建

1、如果在代码中运行命令scrapy crawl sina2出错（如上图）
   subprocess.CalledProcessError: Command "scrapy crawl sina2" 
   returned non-zero exit status 1
   有可能是：
    1、先将scrapy crawl sina2命令在cmd窗口中测试，如果报错：
      Fatal error in launcher: Unable to create process using """
    请参考下方第二点
    2、scrapy没有装好

2、如果命令行出错
   Fatal error in launcher: Unable to create process using """
   有可能是：
    1、python没有安装在c盘的原因，经测试我将python27放到除c盘以外都不行
    2、安装路径不要有 空格中文之类的字符

3、pip被墙，修改国内源方法，可以增加速度（好久没去测试，不懂还可以用不）
    1、linux或者是Mac的 pip源：
       1、找到vi ~/.pip/pip.conf
       2、修改
       [global]
       index-url = https://pypi.tuna.tsinghua.edu.cn/simple
    2、window的 pip源：
       1、找到C:UsersAdministrator
       2、新建pip文件夹，新建pip.ini文件 填写以下内容
       [global]
       index-url = https://pypi.tuna.tsinghua.edu.cn/simple

4、安装Scrapy过程中出错：
    ERROR: ‘xslt-config’ 不是内部或外部命令，也不是可运行的程序 或批处理文件。
    1、在http://pypi.python.org/simple/lxml/下载win10 x64（看系统情况）
       的lxml-2.2.8.win-amd64-py2.7.exe
    2、然后重新打开cmd去pip install Scrapy 解决了此xml的问题了

5、运行代码报错：
   ImportError: No module named win32api
   解决：
   1、pip install pypiwin32

从一台电脑快速复制环境到另以台电脑（window）

当你在一台电脑上配置相当完全的python开发环境之后，想要换一台同类型的电脑继续工作，一想到要从新安装各类的三方库，是不是很累，我这里有几点小建议

1、首先明确需要的安装的基本东西：
    1、jdk（python需要）
    2、PythonChram（开发工具）
    3、Python27（python基础）

2、jdk：
    1、到已安装电脑的安装目录复制jdk文件夹
    2、拷贝到新电脑你想要存放的目录（注意目录不要有中文、特殊字符等）
    3、配置jdk环境变量，路径指向你存放的目录（自行百度）
    说明：jdk安装完的文件夹，可以直接拷贝应用，无需从网络上下载然后安装，比较方便

3、PythonChram：
    1、到已安装电脑的安装目录复制PythonChram文件夹
    2、拷贝到新电脑你想要存放的目录（注意目录不要有中文、特殊字符等）
    3、同时：也可以打开软件，将设置项导出，拷贝到新电脑的软件上使用，可以省去设置软件
    外观的麻烦事，但是可能有些基础的配置项就需要重新配置如：
       1、python解释器的位置
       2、git的路径

4、Python27：
    1、到已安装电脑的安装目录复制Python27文件夹
    2、拷贝到新电脑的C盘根目录（特别注意：放到除C盘之外的目录可能会出现问题，请自测）
    3、配置环境变量（指向存放的c盘目录）
    说明：Python27安装完的文件夹，可以直接拷贝应用，无需从网络上下载然后安装，比较
         方便，而且里面已经包含了需要的三方库，可以省掉用pip安装的麻烦事情

GPU云服务器云服务器 scrapy爬虫入门滴滴云用谁家的服务器滴滴云服务器只广州的能用吗点点滴滴

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/40701.html

基于 Python 的 Scrapy 爬虫入门：环境搭建

摘要：一基础环境由于不是职业的开发者，因此环境是基于的。二安装打开命令行工具创建虚拟环境，默认情况下会创建目录，所有的虚拟环境都会产生一个子目录保存在此，里面包含基本程序文件以及库文件。目录基于 Python 的 Scrapy 爬虫入门：环境搭建基于 Python 的 Scrapy 爬虫入门：页面提取基于 Python 的 Scrapy 爬虫入门：图片处理作为一个全栈工程师（...

Gu_Yan 2019-07-31 11:00 评论0 收藏0
Scrapy学习（二）入门

摘要：快速入门接上篇学习一安装，安装后，我们利用一个简单的例子来熟悉如何使用创建一个爬虫项目。创建一个项目在已配置好的环境下输入系统将在当前目录生成一个的项目文件。这部分才是业务的核心部分。提取的方式有几种。具体代码详见入门项目快速入门接上篇Scrapy学习（一）安装，安装后，我们利用一个简单的例子来熟悉如何使用Scrapy创建一个爬虫项目。创建一个Scrapy项目在已配置好的环境...

Astrian 2019-07-25 11:28 评论0 收藏0
scrapy入门

摘要：快速入门首先，初步要做的就是快速构建一个爬虫。然后把结果加入到一个队列中。既然是入门，我们肯定是先关心我们需要的。因为公司项目需求，需要做一个爬虫。所以我一个python小白就被拉去做了爬虫。花了两周时间，拼拼凑凑总算赶出来了。所以写个blog做个记录。快速入门首先，初步要做的就是快速构建一个爬虫。配置环境 Mac下安装 1) 直接从官网下载 python下载官网 2) 是通过...

CrazyCodes 2019-07-30 17:33 评论0 收藏0
scrapy入门：豆瓣电影top250爬取

摘要：本文内容爬取豆瓣电影页面内容，字段包含排名，片名，导演，一句话描述有的为空，评分，评价人数，上映时间，上映国家，类别抓取数据存储介绍爬虫框架教程一入门创建项目创建爬虫注意，爬虫名不能和项目名一样应对反爬策略的配置打开文件，将修改为。本文内容爬取豆瓣电影Top250页面内容，字段包含：排名，片名，导演，一句话描述有的为空，评分，评价人数，上映时间，上映国家，类别抓取数据存储 ...

xialong 2019-07-31 11:16 评论0 收藏0
基于 Python 的 Scrapy 爬虫入门：图片处理

目录基于 Python 的 Scrapy 爬虫入门：环境搭建基于 Python 的 Scrapy 爬虫入门：页面提取基于 Python 的 Scrapy 爬虫入门：图片处理上篇文章中讲解了如何从网站页面抓取所需要的数据，很幸运范例中所需的数据是通过 Ajax 请求返回的 JSON 结构化数据，处理起来很简单，图片内容也只取了一个链接，对于我最初的目标把这些图集添加到自己的博客站点中这...

william 2019-07-31 11:01 评论0 收藏0