Python 爬虫学习笔记 – 第四周/单元12/股票数据Scrapy爬虫

English Version: https://today2tmr.com/en/2017/07/18/python-spider-study-note-week-fourunit-twelvescrapy-for-stock-data

参考: http://today2tmr.com/2017/07/18/python-爬虫学习笔记-第三周单元9股票数据定向爬虫/

介绍

功能描述

程序框架

  • Spiders: 处理网页爬取与解析的功能
  • Pipelines: 处理解析后的数据并存入文件

编写

步骤

  • STEP 1: 建立工程和Spider模板
    • scrapy startproject BaiduStocks
    • cd BaiduStocks
    • scrapy genspider stocks baidu.com
    • 进一步修改spiders/stocks.py
  • STEP 2: 编写Spider
    • 配置stocks.py文件
    • 修改对返回页面的处理
    • 修改对新增URL爬取请求的处理
  • STEP 3: 编写ITEM Pipelines
    • 配置pipelines.py文件
    • 定义对爬取项(Scrapy Item)的处理类
    • 修改settings.py中ITEM_PIPELINES选项

spider的编写

 

pipelines.py的编写

 

settings.py的修改

 

优化

  • 进一步提高爬取速度

配置并发连接选项

settings.py文件

选项 说明
CONCURRENT_REQUESTS Downloader最大并发请求下载数量,默认32
CONCURRENT_ITEMS Item Pipeline最大并发ITEM处理数量,默认100
CONCURRENT_REQUESTS_PER_DOMAIN 每个模板域名最大的并发请求数量,默认8
CONCURRENT_REQUESTS_PER_IP 每个目标IP最大的并发请求数量,默认0,非0有效
  • 后两个参数只有一个参数起作用

Leave a Reply

Your email address will not be published.