Nginx 限制百度等爬虫连接

yearsj 发布于2019-07-25 13:40 / 1071人阅读

摘要：目的每两秒允许个来自头包含等的爬虫类请求测试官方文档中文相关解释

目的: 每两秒允许1个来自header头包含Baiduspider等的爬虫类请求

http {

map $http_user_agent $is_limited_bot {
    "~Baiduspider" 1;
    "~OtherSpider" 2;
    default "";
}
limit_req_zone  $is_limited_bot zone=botzone:10m   rate=30r/m;

server {
    ...

    location / {
        ...

        limit_req zone=botzone burst=5;
    }
}

}

测试: curl -I http://example.com -A OtherSpider

Nginx官方文档:http://nginx.org/en/docs/http/ngx_http_limit_req_module.html
中文相关解释:http://storysky.blog.51cto.com/628458/642970/

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/39277.html

网站信息采集

摘要：网站信息采集在编写爬虫之前可能需要先了解和搜集网站信息协议也称为爬虫协议机器人协议等的全称是网络爬虫排除标准，网站通过协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。网站信息采集在编写爬虫之前可能需要先了解和搜集网站信息 robots.txt Robots协议（也称为爬虫协议、机器人协议等）的全称是网络爬虫排除标准（Robots Exclusion Protocol），网站通过...

AZmake 2019-07-30 15:32 评论0 收藏0
Angular2 网站 SEO 攻略

摘要：使用生成静态页，再配置在爬虫访问时提供静态页中的内容。如何在爬虫访问时让爬虫获取到静态页中的内容要演练此部分内容，首先你要把网站用部署。 Angular 的优点有很多，但如果用它来开发网站的话，就不得不面对它的两大缺点：首页加载慢搜索引擎的爬虫获取不到页面内容由于 Angular 是通过 js 动态生成 dom 并插入到页面中，搜索引擎默认只能获得页面的标题。我们可以使用 c...

niuxiaowei111 2019-07-25 14:15 评论0 收藏0
基于python的百度云网盘资源搜索引擎设计架构

摘要：大家都知道百度云网盘上有很多分享的资源，包括软件各类视频自学教程电子书甚至各种电影种子应有尽有，但百度云却没有提供相应的搜索功能。于是就尝试开发一个百度云资源的搜索系统。大家都知道百度云网盘上有很多分享的资源，包括软件、各类视频自学教程、电子书、甚至各种电影、BT种子应有尽有，但百度云却没有提供相应的搜索功能。个人平时要找一些软件、美剧觉得非常蛋疼。于是就尝试开发一个百度云资源的搜索...

williamwen1986 2019-07-25 10:23 评论0 收藏0
18年求职面经及总结

摘要：年求职面经及总结我的求职之路差不多走到尽头了感觉真是精疲力尽了把这大半年的经历和面试总结写下来希望能给和我一样在求职路上煎熬的人一点帮助先说背景微电子科学与工程专业学过两门和相关的课程语言和单片机这个专业的唯一好处就是大部分人并不知道这个专 18年求职面经及总结我的求职之路差不多走到尽头了,感觉真是精疲力尽了.把这大半年的经历和面试总结写下来,希望能给和我一样在求职路上煎熬的人一点帮...

zhangwang 2019-08-22 11:07 评论0 收藏0
18年求职面经及总结

摘要：年求职面经及总结我的求职之路差不多走到尽头了感觉真是精疲力尽了把这大半年的经历和面试总结写下来希望能给和我一样在求职路上煎熬的人一点帮助先说背景微电子科学与工程专业学过两门和相关的课程语言和单片机这个专业的唯一好处就是大部分人并不知道这个专 18年求职面经及总结我的求职之路差不多走到尽头了,感觉真是精疲力尽了.把这大半年的经历和面试总结写下来,希望能给和我一样在求职路上煎熬的人一点帮...

fjcgreat 2019-08-01 17:38 评论0 收藏0