python sklearn 无监督学习之降维 算法与应用

PCA

  • PCA(Principal Component Analysis) 主成分分析, 用于高维数据集的探索与可视化,还可以用作数据压缩和预处理等。
  • PCA可把具有相关性的高维变量合成为线性无关的低维变量,成为主成分。主成分能够尽可能保留原始数据的信息。
  • Terms:
    • 方差,各个样本和样本均值的差的平方和的均值,用来度量一组数据的分散程度。$s^2 = \frac{\sum_{i=1}^n (x_i – x)^2}{n-1}$
    • 协方差,用于度量两个变量之间的线性相关性程度。$Cov(X,Y)=\frac{\sum_{i=1}^n (X_i-\overline{X})(Y_i – \overline{Y})}{n-1}$
    • 协方差矩阵,变量的协方差值构成的矩阵。
    • 特征向量,描述数据集结构的非零向量 $A\overrightarrow{v}=\lambda \overrightarrow{v}$

Continue reading “python sklearn 无监督学习之降维 算法与应用”

python-sklearn 机器学习导学&聚类入门实例

课程主页: https://www.icourse163.org/course/BIT-1001872001

课程导学

分类

  • 监督学习 Supervised Learning
    • 在给定人类标注的训练数据中学习函数
  • 无监督学习 Unsepervised Learning
    • 无人类标注的训练集
  • 增强学习/强化学习 Reinforcement Learning
    • 通过观察环境学习执行动作
  • 半监督学习 Semi-supervised Learning
  • 深度学习 Deep Learning

Continue reading “python-sklearn 机器学习导学&聚类入门实例”

算法导论笔记0x16 —— 子串搜索

KMP

m is the length of text
n is the length of pattern

  • [Prefix Array Logic]
  • 初始j指向0索引,i指向1索引
  • 数组0索引初始化为0
  • 检查匹配
    • 不匹配时,跳到j索引的前一个数组值所对应的索引位置继续检查匹配
      • 不匹配时,j=Array[j-1]
      • 若j是0,数组值为0,Array[i]=0
    • 匹配时,数组中的值为j的值加1,i和j同时加1继续检查匹配
      • Array[i]=j+1, i++, j++

Continue reading “算法导论笔记0x16 —— 子串搜索”

算法设计与分析笔记0x0E —— Part 3 NP完全

Partitioning Problems

3-Dimensional Matching

3D-MATCHING. Given n instructors, n courses, and n times, and a list of the possible courses and times each instructor is willing to teach, is it possible to make an assignment so that all courses are taught at different times?
3D-MATCHING. Given disjoint sets X, Y, and Z, each of size n and a set T X × Y × Z of triples, does there exist a set of n triples in T such that each element of X Y Z is in exactly one of these triples?

Continue reading “算法设计与分析笔记0x0E —— Part 3 NP完全”