数据预处理
常见的数据质量问题
- 噪声
- 离群点
- 缺失值
- 冗余数据
常见的数据预处理手段
- 数据清洗:填补缺失值,平滑噪声,处理离群点,处理数据不兼容问题(比如排名可以用1,2,3,也可以用A,B,C)
- 数据整合
- 数据减少:降低维度,降低数据量,数据压缩
- 数据转换:离散化处理,正则化处理,生成层次结构
Data Reduction
- PCA(Principal Component Analysis)(特征提取)
- 删除蕴含在其他信息中的信息(比如元素的属性有单价、数量、总价,那么就可以删除总价,因为可以有单价和数量计算得到)(线性代数中的理解可以是矩阵的秩)
- 去除不相关属性(比如预测学生的GPA值,那么学号属性就是不相关的)
Data Transformation
- min-max Normalization
- 从一个(min,max)域转移到另一个(min',max')域
- Z-score Normalization
- (u,a)的正太分布,x'=(x-v)/a
- Normalization by Decimal Scaling
- ?
Data Discretization
- ?
- Binning(分成若干个桶,然后将数据装入对应的桶中)
- 等宽桶,width = (max - min)/N
- 等深桶,每个同中包含近似等量的样本