资讯专栏INFORMATION COLUMN

python 获得一个网站的所有链接

hzx / 1540人阅读

摘要:第一步,找个网站我这里就找行业里比较有名的收录网站的网站酷网第二步,打开按下鼠标右键点击查看源码第三步,把源码复制下来保存成一个文件命名第四步,执行以下程序我这里用的版本

第一步,找个网站 我这里就找行业里比较有名的收录网站的网站 酷113网

第二步,打开www.ku113.com 按下鼠标右键 点击查看源码

第三步,把源码复制下来 保存成一个文件 命名 ku113.html

第四步, 执行以下python 程序 我这里用的py 2.7.13版本

coding:utf-8

import re
from bs4 import BeautifulSoup

with open(‘ku113.html’,‘r’) as f:
data = f.read()

print (data)

result = re.findall(r"(?<=href=").+?(?=")|(?<=href=’).+?(?=’)",data)

print result

for each in result:

print (each)

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/43323.html

相关文章

  • 忘记API 使用Beautiful Soup进行Python Scraping,从Web导入数据文件

    摘要:忘记使用进行,从导入数据文件第部分对于每个网站而言,并不总是适合您,但将永远与您保持联系以从任何网站收集任何类型的数据。非资源让我们拿一个维基百科页面进行报废。请求它旨在被人类用于与语言进行通信。使用标签,我们将告诉保护我们的数据。忘记API使用Beautiful Soup进行Python Scraping,从Web导入数据文件:第2部分 对于每个网站而言,API并不总是适合您,但Be...

    马龙驹 评论0 收藏0
  • 忘记API 使用Beautiful Soup进行Python Scraping,从Web导入数据文件

    摘要:忘记使用进行,从导入数据文件第部分对于每个网站而言,并不总是适合您,但将永远与您保持联系以从任何网站收集任何类型的数据。非资源让我们拿一个维基百科页面进行报废。请求它旨在被人类用于与语言进行通信。使用标签,我们将告诉保护我们的数据。忘记API使用Beautiful Soup进行Python Scraping,从Web导入数据文件:第2部分 对于每个网站而言,API并不总是适合您,但Be...

    wayneli 评论0 收藏0
  • Python--Redis实战:第一章:初识Redis:第三节:你好Redis-文章投票试炼

    摘要:为了防止用户对同一篇文章进行多次投票,网站需要为每一篇文章记录一个已投票用户名单。上一篇文章实战第一章初识第二节数据结构简介下一篇文章实战第二章使用构建应用第一节登录和缓存 上一篇文章: Python--Redis实战:第一章:初识Redis:第二节:Redis数据结构简介下一篇文章:Python--Redis实战:第二章:使用Redis构建Web应用:第一节:登录和cookie缓存 ...

    Meils 评论0 收藏0
  • Python 从零开始爬虫(六)——动态爬取解决方案 之 手动分析

    摘要:之前提到动态加载就两个解决方案手动分析和。背后有许多不为人知的交易进行着,动态爬取的任务就是拦截它们揭开它们的真面目。在爬虫界有着霸王硬上弓的称号,管它情不情愿,来了动态加载也只有屈服的份了。 之前提到动态加载就两个解决方案——手动分析和selenium。接下来的文章我们会来深入探讨它们,本文将首先,重点介绍前者——手动分析 手动分析是一个比较有难度,比较麻烦的解决方案,但优点也很明显...

    rozbo 评论0 收藏0

发表评论

0条评论

hzx

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<