资讯专栏INFORMATION COLUMN

通过爬虫快速获取可用代理IP

BearyChat / 1688人阅读

摘要:因此我们可以通过脚本,自动化地从这些网站上抓取代理并测试其可用性,最终过滤出一批可用的代理。

做安全测试时经常需要通过切换IP来探测或者绕过一些安全防护策略,有一些网站会提供免费或者付费的代理IP,而无论是免费还是付费的都不能完全保证代理服务器的可用性,如果一个个手动尝试将会是一件很痛苦的事情。因此我们可以通过脚本,自动化地从这些网站上抓取代理IP并测试其可用性,最终过滤出一批可用的代理IP。

代码托管在Github

Introduction

Proxy Server Crawler is a tool used to crawl public proxy servers from proxy websites. When crawled a proxy server(ip::port::type), it will test the functionality of the server automatically.

Currently supported websites:

http://www.66ip.cn

http://www.cz88.net

http://www.cn-proxy.com

http://www.haodailiip.com

http://www.kuaidaili.com

http://www.proxylists.net

http://www.qiaodm.net

http://www.socks-proxy.net

http://www.xroxy.com

http://www.xicidaili.com

Currently supported testing(for http proxy)

ssl support

post support

speed (tested with 10 frequently used sites)

type(high/anonymous/transparent)

Requirements

Python >= 2.7

Scrapy 1.3.0 (not tested for lower version)

node (for some sites, you need node to bypass waf based on javascript)

Usage
cd proxy_server_crawler
scrapy crawl chunzhen
log
[ result] ip: 59.41.214.218  , port: 3128 , type: http, proxy server not alive or healthy.
[ result] ip: 117.90.6.67    , port: 9000 , type: http, proxy server not alive or healthy.
[ result] ip: 117.175.183.10 , port: 8123 , speed: 984 , type: high
[ result] ip: 180.95.154.221 , port: 80   , type: http, proxy server not alive or healthy.
[ result] ip: 110.73.0.206   , port: 8123 , type: http, proxy server not alive or healthy.
[  proxy] ip: 124.88.67.54   , port: 80   , speed: 448 , type: high       , post: True , ssl: False
[ result] ip: 117.90.2.149   , port: 9000 , type: http, proxy server not alive or healthy.
[ result] ip: 115.212.165.170, port: 9000 , type: http, proxy server not alive or healthy.
[  proxy] ip: 118.123.22.192 , port: 3128 , speed: 769 , type: high       , post: True , ssl: False
[  proxy] ip: 117.175.183.10 , port: 8123 , speed: 908 , type: high       , post: True , ssl: True 
License

The MIT License (MIT)

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/38400.html

相关文章

  • 网络大数据爬虫为什么要使用IP代理,代理IP的特点是什么?

    摘要:所以你可以直接了解下亿牛云代理。最重要的是亿牛云的代理每个业务只做一个客户,虽然这在一定程度上减少了客户的使用量,但是这个就保证了客户使用代理的效果,客户独享代理和跟其他的客户共享代理,使用的效果是有很大的差别的。 现如今大数据是很火热的行业,随着互联网的快速发展,大数据在很多方面都是得到应用,但是大数据信息的获得需要通过数据采集来实现。而爬虫工作者在获取大量数据的过程中,ip是一必须...

    cocopeak 评论0 收藏0
  • 多线程+代理池爬取天天基金网、股票数据(无需使用爬虫框架)

    摘要:本次使用天天基金网进行爬虫,该网站具有反爬机制,同时数量足够大,多线程效果较为明显。技术路线代理池多线程爬虫与反爬编写思路首先,开始分析天天基金网的一些数据。一旦使用多线程,则需要考虑到数据的读写顺序问题。 @[TOC] 简介 提到爬虫,大部分人都会想到使用Scrapy工具,但是仅仅停留在会使用的阶段。为了增加对爬虫机制的理解,我们可以手动实现多线程的爬虫过程,同时,引入IP代理池进行...

    jaysun 评论0 收藏0
  • 听说你好不容易写了个爬虫,结果没抓几个就被封了?(附工具)

    摘要:近来知乎上如雨后春笋般冒出了大把大把的爬虫教程。一个爬虫教程的案例三个月之后还能有效已经是万幸了。不过仍然要说明,即使经过多次验证,也无法保证一个的绝对可用性。这是个概率问题,工具的作用只是尽可能提高概率。 近来知乎上如雨后春笋般冒出了大把大把的爬虫教程。这是好事,学了 Python 基础的同学们可以很轻松地搜出许多练手的例子。不过我不是针对谁,我是说网上绝大多数的爬虫教程,其实都缺乏...

    Pluser 评论0 收藏0
  • 分布式代理爬虫:架构篇

    摘要:降低的结果可能有三个随着数据量的增大的性能受到了一定的影响知乎校验器在把中的代理消费完之后,由于是定时任务,所以导致某段时间内新鲜的空缺。 历时大致两个月,到现在终于完成了分布式代理抓取爬虫,目前开源在了Github上。写这个项目的原因主要有两点,一是自己平时的部分工作需要和爬虫打交道,代理IP在有的时候可以发挥非常重要的作用,调研过一些开源的代理IP采集程序,发现在抓取、解析、校验、...

    qujian 评论0 收藏0
  • python scrapy 代理中间件,爬虫必掌握的内容之一

    摘要:使用中间件本次的测试站点依旧使用,通过访问可以获取当前请求的地址。中间件默认是开启的,可以查看其源码重点为方法。修改代理的方式非常简单,只需要在请求创建的时候,增加参数即可。接下来将可用的代理保存到文件中。同步修改文件中的代码。 ...

    binta 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<