python数据分析与展示 – 第三周/单元八/Pandas数据特征分析

和单元七一样,直接从课件中整理笔记。

数据排序

  • .sort_index()方法在指定轴上根据索引进行排序,默认升序
    • .sort_index(axis=0, ascending=True)
    • For DataFrame, first argument is some index or columns by which data is sorted.
    • NaN统一放在排序末尾

数据的基本统计分析

(for bot Series and DataFrame)

方法 说明
.sum() 计算数据的综合,按0轴计算,下同
.count() 非NaN值的数量
.mean() .median() 计算数据的算术平均值、算术中位数
.var() .std() 计算数据的方差、标准差
.min() .max() 计算数据的最小值、最大值
.describe() 针对0轴(各列)的统计汇总
方法(for Series) 说明
.argmin() .argmax() 计算数据最大值、最小值所在位置的位置(自动索引)
.idxmin() idxmax() 计算数据最大值、最小值所在位置的位置(自定义索引)

  • 以下参考 https://www.cnblogs.com/chaosimple/p/4153083.html
  • .loc 按照索引进行行列选择(会包含右边界值)
  • .head 查看前几行(默认5)
  • .iloc 按照索引值来选取
  • .at 访问单个元素
  • .iat vs .at is similar to .iloc vs .loc
  • .ix 允许索引超出范围

数据的累计统计分析

累计计算

(for both Series and DataFrame)

方法 说明
.cumsum() 依次给出前1、2、…、n个数的和
.cumprod() 依次给出前1、2、…、n个数的积
.cummax() 依次给出前1、2、…、n个数的最大值
.cummin() 依次给出前1、2、…、n个数的最小值

滚动计算(窗口计算)

(for both Series and DataFrame)

方法 说明
.rolling(w).sum() 依次计算相邻w个元素的和
.rolling(w).mean() 依次计算相邻w个元素的算术平均值
.rolling(w).var() 依次计算相邻w个元素的方差
.rolling(w).std() 依次计算相邻w个元素的标准差
.rolling(w).min() .max() 依次计算相邻w个元素的最小值和最大值

数据的相关性分析

  • 协方差

$$cov(X,Y)=\frac{\sum_{i=1}^n(X_i – \widehat{X})(Y_i – \widehat{Y})}{n-1}$$

  • >0, 正相关
  • <0, 负相关
  • =0, X和Y独立无关
  • Pearson相关系数

$$r=\frac{\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})}{\sqrt{\sum_{i=1}^n(x_i-\overline{x})^2}\sqrt{\sum_{i=1}^n(y_i-\overline{y})^2}}$$

  • 0.8-1.0 极强相关
  • 0.6-0.8 强相关
  • 0.4-0.6 中等程度相关
  • 0.2-0.4 弱相关
  • 0.0-0.2 极弱相关或无相关

(for Series and DataFrame)

方法 说明
.cov() 计算协方差矩阵
.corr() 计算相关系数矩阵,Pearson、Spearman、Kendall等系数

One Reply to “python数据分析与展示 – 第三周/单元八/Pandas数据特征分析”

Leave a Reply

Your email address will not be published.