Python 爬虫学习笔记 – 第一周/单元3/应用实例

English Version: https://today2tmr.com/en/2017/07/15/python-spider-study-note-week-oneunit-threeapplications/

实例一:京东商品页面爬取

实例二:亚马逊商品页面爬取

  • 发生错误,由于以返回页面内容,是API错误。
  • 是否由于爬虫访问被拒绝?
  • 查看r.request.headers
  • 亚马逊不支持python-requests库访问。
  • 模拟浏览器:

全代码

实例三:百度/360搜索关键词提交

http://www.baidu.com
http://www.so.com

搜索关键词接口:

  • http://www.baidu.com/s?wd=keyword
  • http://www.so.com/s?q=keyword
  • 构造关键词键字对赋值params

全代码

实例四:网络图片的爬取和存储

  • 链接格式: http://www.example.com/picture.jpg
  • 打开网站 http://www.nationalgeographic.com.cn/photography/photo_of_the_day/3921.html
  • 图片地址 http://image.nationalgeographic.com.cn/2017/0211/20170211061910157.jpg
  • 假设保存在桌面(Linux下),命名为abc.jpg
  • 如何保存?
    1. 打开路径下的文件
    2. 将文件二进制形式写入文件

全代码(保存为原文件名)

实例五:IP地址归属地的自动查询

  • 如果返回内容很多,r.text可约束范围。

全代码

find API to simulate form submission

总结

  1. 模拟浏览器访问,改变user-agent。
  2. 关键词、表格提交的API使用。
  3. 网络文件的存储。

Leave a Reply

Your email address will not be published.