资讯专栏INFORMATION COLUMN

入门爬虫的干货

Yangder / 3143人阅读

摘要:一入门爬虫的干货爬虫的基本思路通过或者文件获取网页,分析要爬取的目标内容所在的位置用元素选择器快速提取目标内容处理提取出来的目标内容通常整理合成一个存储处理好的目标内容比如放到之类的数据库,或者写进文件里。

如果学会了python的基本语法,我认为入门爬虫是很容易的。 我写的第一个爬虫大概只需要10分钟,自学的 scrapyd , 看官方文档花了20分钟,因为我英文不是很好,很多单词需要搜索一下。

(scrapy 并不是入门必须的) 再接触到了 requests , lxml ,配合基本库 urllib, urllib2 就几乎无所不能了。后来有人推荐我用 BeatufulSoup 之类的库,但其实原理都差不多。一、入门爬虫的干货 0. 爬虫的基本思路 a. 通过URL或者文件获取网页, b. 分析要爬取的目标内容所在的位置 c. 用元素选择器快速提取(Raw) 目标内容 d. 处理提取出来的目标内容 ( 通常整理合成一个 Json) e. 存储处理好的目标内容 (比如放到 MongoDB 之类的数据库,或者写进文件里)。

1、为什么我入门爬虫那么快?
答:我自己总结了一下,在接触爬虫之前:

我挺了解HTTP 协议(看了《HTTP权威指南》)

我写过基于Flask框架的后端,用的是《Flask Web开发:基于Python的Web应用开发实战 》)

我写过前端(HTML+CSS+JS),了解什么是DOM ,会一点jquery

正则也是勉强够用的

本人大学也是计算机专业,学习挺认真的

所以算是厚积薄发。

2.那么毫无专业基础,也没有前后端基础的人应该怎么办?
答:那当然要超过半小时啦。先花点时间去大概了解以下内容:

HTTP协议的请求方法,请求头部,请求数据

大概了解一下什么是 cookie

学一点HTML和元素选择器

学会使用Chrome 的 开发者工具 磨刀不误砍柴工,当然如果有人带着,这些大概1-2小时就能过到能凑合用的程度了。如果没人带,就上网搜索学习一下,也很快的,估摸最多十小时。

3.Python 爬虫常用的库是哪些?入门应该掌握哪些库?
答:网上有很多相关的资料,但是我个人觉得新入门的人,不需要也不应该一下子接触所有的库。正如幼儿刚开始学说话的时候,不应该同时教普通话粤语闽南语英语。 我个人认为,学会 requests 和 lxml ,就可以入门爬虫了。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/41014.html

相关文章

  • 【微信小程序爬虫】表情包小程序图文视频教学,从零写起,保姆教程!!!

    摘要:文章目录前言爬取分析视频教学成果展示福利入门到就业学习路线规划小白快速入门爬虫路线前言皮皮虾一个沙雕而又有趣的憨憨少年,和大多数小伙伴们一样喜欢听歌游戏,当然除此之外还有写作的兴趣,,日子还很长,让我们一起加油努力叭话 ...

    coordinate35 评论0 收藏0
  • Python所有方向学习路线,你们要知识体系在这,千万别做了无用功!

    摘要:适用人群爬虫方向数据分析方向非程序员加薪四开发前后端开发是程序员职业中的热门,目前来讲,人才缺口依然很大。寄语上面就是所有方向的学习路线了,把你感兴趣的方向掌握了之后,你去找工作不是什么问题的。 ...

    opengps 评论0 收藏0
  • 【zzzmh个人博客】一枚Java程序个人建站之路 (干货)

    摘要:又不似程序员可以直接套用框架来快速建站,不重复发明轮子。至此开启了新的折腾之旅。以及百度收录的时候不执行脚本等原因。能对应高并发,还能被百度爬虫识别。主要内容如标题文章等用标签渲染,让百度爬虫一次收录成功。 showImg(https://segmentfault.com/img/remote/1460000018057514); 目前版本的博客地址: https://zzzmh.cn...

    jayce 评论0 收藏0
  • 【zzzmh个人博客】一枚Java程序个人建站之路 (干货)

    摘要:又不似程序员可以直接套用框架来快速建站,不重复发明轮子。至此开启了新的折腾之旅。以及百度收录的时候不执行脚本等原因。能对应高并发,还能被百度爬虫识别。主要内容如标题文章等用标签渲染,让百度爬虫一次收录成功。 showImg(https://segmentfault.com/img/remote/1460000018057514); 目前版本的博客地址: https://zzzmh.cn...

    sugarmo 评论0 收藏0
  • 【zzzmh个人博客】一枚Java程序个人建站之路 (干货)

    摘要:又不似程序员可以直接套用框架来快速建站,不重复发明轮子。至此开启了新的折腾之旅。以及百度收录的时候不执行脚本等原因。能对应高并发,还能被百度爬虫识别。主要内容如标题文章等用标签渲染,让百度爬虫一次收录成功。 showImg(https://segmentfault.com/img/remote/1460000018057514); 目前版本的博客地址: https://zzzmh.cn...

    Hujiawei 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<