Python爬虫学习笔记 – 第一周/单元二/盗亦有道: Robots.txt

English Version:  https://today2tmr.com/en/2017/07/15/python-spider-study-note-week-oneunit-twocode-of-conduct-robots-txt

网络爬虫的尺寸:

  • 爬取网页:小规模,数据量小,速度不敏感,用Requests库。>90%
  • 爬取网站:中规模,数据规模较大,速度敏感,用Scrapy库
  • 爬取全网:大规模,搜索引擎,爬取速度关键,定制开发

由于:

  • 受限于开发者的水平和目的,网络爬虫会给服务器带来巨大开销。
  • 数据归有权。
  • 隐私泄露。

网络爬虫的限制

  • 来源审查:判断User-Agent
    • 查看HTTP协议头的User-Agent,只响应浏览器或友好爬虫。
  • 发布公告:Robots协议
    • 制定爬取策略

Robots协议

  • 全称:Robots Exclusion Standard
  • 作用:告知可抓取网站中内容
  • 形式:根目录下的robots.txt文件

例子

https://www.jd.com/robots.txt

  • 解释:
    • 任意爬虫不允许访问/?*,/pop/*.html,/pinpai/*.html?*类路径。
    • EtaoSpider,HuihuiSpider,GwdangSpider,WochachaSpider四种爬虫拒绝访问。

语法

  • 注释

  • * 所有
  • / 根目录
  • User-agent: 爬虫种类
  • Disallow: 不允许访问的目录

Robots协议遵守方式

  • 使用:自动或人工识别robots.txt,根据内容进行爬取。
  • 可不遵守,但存在法律风险。
  • 类人行为可不参考Robots协议。

Leave a Reply

Your email address will not be published.