数据预处理

常见的数据质量问题

  • 噪声
  • 离群点
  • 缺失值
  • 冗余数据

常见的数据预处理手段

  • 数据清洗:填补缺失值,平滑噪声,处理离群点,处理数据不兼容问题(比如排名可以用1,2,3,也可以用A,B,C)
  • 数据整合
  • 数据减少:降低维度,降低数据量,数据压缩
  • 数据转换:离散化处理,正则化处理,生成层次结构

Data Reduction

  • PCA(Principal Component Analysis)(特征提取)
  • 删除蕴含在其他信息中的信息(比如元素的属性有单价、数量、总价,那么就可以删除总价,因为可以有单价和数量计算得到)(线性代数中的理解可以是矩阵的秩)
  • 去除不相关属性(比如预测学生的GPA值,那么学号属性就是不相关的)

Data Transformation

  • min-max Normalization
    • 从一个(min,max)域转移到另一个(min',max')域
  • Z-score Normalization
    • (u,a)的正太分布,x'=(x-v)/a
  • Normalization by Decimal Scaling
    • ?

      Data Discretization

  • Binning(分成若干个桶,然后将数据装入对应的桶中)
    • 等宽桶,width = (max - min)/N
    • 等深桶,每个同中包含近似等量的样本

results matching ""

    No results matching ""