资讯专栏INFORMATION COLUMN

分分钟教你爬数据

VincentFF / 3008人阅读

得到 html
import requests
html=requests.get("http://sc.hkex.com.hk/TuniS/www.hkex.com.hk/chi/market/sec_tradinfo/stockcode/eisdeqty_c.htm").content
解析数据
from pyquery import PyQuery as Q
q=Q(html)
tr = q("tr.tr_normal")
导入 db
db=zpool["mysql+mysqldb://root:pwd@dbhost:3306/glhdb"]
sqls = ["INSERT INTO `stocks_code` (`name`, `code`) VALUES ("{0}","{1}")".format(Q(i)("td")[0].text.encode("utf8","ignore"), ((Q(Q(i)("td")[1])("a") and Q(Q(i)("td")[1])("a")[0].text) or u"").encode("utf8","ignore").strip(")").strip(""").replace(""",""")) for i in tr[0:-3]]
[db.execute(text(i)) for i in sqls]

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/37348.html

相关文章

  • 【Python爬虫】手把手带你爬下肯德基官网(ajax的post请求)

    摘要:准备工作查看肯德基官网的请求方法请求。判断得肯德基官网是请求通过这两个准备步骤,明确本次爬虫目标的请求肯德基官网获取上海肯德基地点前页。构造不难发现,肯德基官网的的一个共同点,我们把它保存为。 ...

    WelliJhon 评论0 收藏0
  • 【虫术】资深爬虫师带你爬取代理IP

    摘要:返回结果如下,接下来我们便开始爬取西刺代理,首先我们打开浏览器查看网页,并找到和端口元素的信息。爬取代理地址,代理的是西刺代理去掉可能重复的等待秒将要爬取页数的爬取好后存入数组,然后再对其中的逐一测试。 有时候在网站看小说,会莫名跳出来一个疑似机器恶意爬取,暂时无法访问这样类似的网站提示,需要刷新一下或者输入一个验证码才能重新进入,这样的情况偶有发生,相信大家都有遇到过。出现这个现象的...

    learning 评论0 收藏0
  • 【虫术】资深爬虫师带你爬取代理IP

    摘要:返回结果如下,接下来我们便开始爬取西刺代理,首先我们打开浏览器查看网页,并找到和端口元素的信息。爬取代理地址,代理的是西刺代理去掉可能重复的等待秒将要爬取页数的爬取好后存入数组,然后再对其中的逐一测试。 有时候在网站看小说,会莫名跳出来一个疑似机器恶意爬取,暂时无法访问这样类似的网站提示,需要刷新一下或者输入一个验证码才能重新进入,这样的情况偶有发生,相信大家都有遇到过。出现这个现象的...

    PiscesYE 评论0 收藏0
  • 首次公开,整理12年积累的博客收藏夹,零距离展示《收藏夹吃灰》系列博客

    摘要:时间永远都过得那么快,一晃从年注册,到现在已经过去了年那些被我藏在收藏夹吃灰的文章,已经太多了,是时候把他们整理一下了。那是因为收藏夹太乱,橡皮擦给设置私密了,不收拾不好看呀。 ...

    Harriet666 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<