python数据分析与展示 – 第一周/单元三/实例1:图像的手绘效果

English Version: https://today2tmr.com/en/2017/08/29/hand-drawing-effect/

图像的数组表示

  • RGB,每个像素点由红绿蓝组成
  • 每个颜色通道取值为0-255

PIL库

  • Python Image Library
  • 第三方库,需要安装
  • pip install pillow
  • from PIL import Image
  • Image类为基础类,一个对象即代表一个图像
  • 图像是由像素组成的二维矩阵,每个元素为RGB值

  • 三维数组,高度、宽度和RBG值

Continue reading “python数据分析与展示 – 第一周/单元三/实例1:图像的手绘效果”

python数据分析与展示 – 第一周/单元二/numpy数据存取与函数

English Version: https://today2tmr.com/en/2017/08/29/python-data-storage-and-functions/

数据的CSV文件存取

  • CSV(Comma-Separated Value,逗号分隔值)文件
  • CSV是一种常见的文件格式,用来存储批量数据。
  • 存取一维、二维数据

写入CSV

  • np.savetxt(frame, array, fmt='%.18e', delimiter=None)
    • frame: 文件、字符串或产生器,可以是.gz或.bz2的压缩文件。
    • array: 存入文件的数组。
    • fmt: 写入文件的格式,例如:%d, %2.f, %.18e
    • delimiter: 分隔字符串,默认是任何空格,CSV中为逗号


     

Continue reading “python数据分析与展示 – 第一周/单元二/numpy数据存取与函数”

python数据分析与展示 – 第一周/单元一/NumPy库入门

English Version: https://today2tmr.com/en/2017/08/16/python-data-unit-one/

数据的维度

  • 一组数据的组织形式,表达特定关系
  • 一维数据 -> 对等关系 -> 列表/数组/集合等
    • 列表和数组:一组数据的有序结构
      • 列表: 数据类型可以不同
      • 数组: 数据类型相同
  • 二维数据 -> 一维数据的组合形式
    • 多维列表
  • 多维数据 -> 一维或二维数据在新维度上扩展(如时间)
    • 多维列表
  • 高维数据 -> 仅利用最基本的二元关系展示数据间的复杂结构 -> 用键值对组织(如Json)
    • 字典或数据表示格式(Json/XML/YAML)

Continue reading “python数据分析与展示 – 第一周/单元一/NumPy库入门”

python数据分析与展示 第〇周 数据分析的前奏

English Version: https://today2tmr.com/en/2017/08/16/python-data-week-zero/

课堂主页:http://www.icourse163.org/course/0809BIT021B-1001870002

导学

介绍

  • 掌握表示、清晰、统计和展示数据的能力
  • Numpy ndarray
  • Matplotlib pyplot
  • Pandas series DataFrame
  • 一个数据,一个含义
  • 一组数据,表达一个或多个含义
  • 如何理解一组数据表达的含义
  • 摘要:有损地提取数据特征的过程
    • 基本统计(含排序)
    • 分布/累计统计
    • 数据特征
      • 相关性,周期性等
    • 数据挖掘(形成知识)

工具

  • Anaconada IDE集成开发工具
  • conda Spyder IPython

Continue reading “python数据分析与展示 第〇周 数据分析的前奏”

Python 爬虫学习笔记目录

English Version: https://today2tmr.com/en/2017/07/18/directory-of-python-spider-study-notes

Python 爬虫学习笔记 – 第四周/单元12/股票数据Scrapy爬虫

English Version: https://today2tmr.com/en/2017/07/18/python-spider-study-note-week-fourunit-twelvescrapy-for-stock-data

参考: http://today2tmr.com/2017/07/18/python-爬虫学习笔记-第三周单元9股票数据定向爬虫/

介绍

功能描述

程序框架

  • Spiders: 处理网页爬取与解析的功能
  • Pipelines: 处理解析后的数据并存入文件

Continue reading “Python 爬虫学习笔记 – 第四周/单元12/股票数据Scrapy爬虫”

Python 爬虫学习笔记 – 第四周/单元11/Scrapy爬虫基本使用

English Version: https://today2tmr.com/en/2017/07/18/python-spider-study-note-week-fourunit-elevenbasic-use-of-scrapy

Scrapy爬虫的第一个实例

将页面http://python123.io/ws/demo.html存在demo.html文件中。

步骤:

  • STEP 1: 建立Scrapy爬虫工程 scrapy startproject python123demo

     

    • python123demo/: 外层目录
      • scrapy.cfg: 部署Scrapy爬虫的配置文件,将爬虫放在服务器上,配置相关操作接口,本例子不需要改变
      • python123demo/: Scrapy框架的用户自定义Python代码
        • __init__.py: 初始化脚本
        • items.py: Items代码模板(继承类)
        • middlewares.py: Middlewares代码模板(继承类)
        • pipelines.py: Pipelines代码模板(继承类)
        • settings.py: Scrapy爬虫的配置文件
        • spiders/: Spiders代码模板目录(继承类),含工程下的全部爬虫
          • __init__.py: 初始文件,无需修改
          • __pycache__/: 缓存目录,无需修改

Continue reading “Python 爬虫学习笔记 – 第四周/单元11/Scrapy爬虫基本使用”

Python 爬虫学习笔记 – 第四周/单元10/Scrapy爬虫框架

English Version: https://today2tmr.com/en/2017/07/18/python-spider-study-note-week-fourunit-tenscrapy-crawling-framework

https://scrapy.org/

Scrapy爬虫框架介绍

安装: pip install scrapy
测试: scrapy -h

  • 不是一个简单的函数功能库,而是一个框架。
  • Scrapy爬虫框架结构
    • 爬虫框架是实现爬虫功能的一个软件结构和功能组件的集合。
    • 半成品,能够帮助用户实现专业网络爬虫。
    • 7个部分,5+2结构
      • ENGINE
      • SPIDERS
      • ITEM PIPELINES
      • DOWNLOADER
      • SCHEDULER
      • MIDDLERWARE, SPIDERS和ENGINE的中间件
      • MIDDLERWARE, DOWNLOADER和ENGINE的中间件
    • 数据含爬虫请求和网络内容
    • 3条主要数据流路径
      • SPIDERS ---REQUESTS---> ENGINE ---REQUESTS---> SCHEDULER
      • SCHEDULER ---REQUESTS---> ENGINE ---REQUESTS---> DOWNLOADER(连接互联网) ---RESPONSE---> ENGINE ---RESPONSE---> SPIDERS
      • SPIDERS(处理RESPONSE后) ---ITEMS/REQUESTS---> ENGINE
        • ---ITEMS---> ITEM PIPELINES
        • ---REQUESTS---> SCHEDULER
    • 入口: SPIDERS
    • 出口: ITEM PIPELINES
    • SCHEDULER, DOWNLOADER, ENGINE已有功能实现
    • ITEM PIPELINES, SPIDERS: 用户编写
      • SPIDERS: 提供爬取链接,解析页面内容
      • ITEM PIPELINES: 处理提取后的信息

Continue reading “Python 爬虫学习笔记 – 第四周/单元10/Scrapy爬虫框架”

Python 爬虫学习笔记 – 第三周/单元9/股票数据定向爬虫

English Version: https://today2tmr.com/en/2017/07/18/python-spider-study-note-week-threeunit-ninedirectional-spider-for-stock-data

介绍

Continue reading “Python 爬虫学习笔记 – 第三周/单元9/股票数据定向爬虫”

Python 爬虫学习笔记 – 第三周/单元8/淘宝商品比价定向爬虫

English Version: https://today2tmr.com/en/2017/07/17/python-spider-study-note-week-threeunit-eightdirectional-spider-for-price-comparison-of-taobao-product

https://www.taobao.com/

实例介绍

功能描述

  • 目标:获取淘宝搜索页面信息,提取商品名称和价格
  • 理解:
    • 淘宝搜索接口
    • 翻页处理
  • 技术路线: request-re

以”书包”为关键词的搜索页第一页信息
https://s.taobao.com/search?q=书包&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.50862.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170717

第二页
https://s.taobao.com/search?q=书包&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.50862.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170717&bcoffset=4&ntoffset=4&p4ppushleft=1%2C48&s=44

第三页
https://s.taobao.com/search?q=书包&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.50862.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170717&bcoffset=4&ntoffset=4&p4ppushleft=1%2C48&s=88 Continue reading “Python 爬虫学习笔记 – 第三周/单元8/淘宝商品比价定向爬虫”