PCA

前言

为什么需要降维?并不是要维度打击

高特征维度的数据比如MNIST,手写数字图像是28×28的灰度图,那么转换为特征向量就是784维;比如文本分类中,汉语的常用词汇多达几万个。这有对机器学习的影响是什么呢?一方面,高维度的数据使得学习过程缓慢,存储消耗大,另一方面,相应的机器学习算法的设计也会更加复杂。所以有必要进行降维。

特征选择和特征提取都是降低特征维度的方式,不同的是特征选择是在原有维度中挑选出一定数量的维度作为新数据的维度,使得某种类别可分性判据最优;而特征提取则是在原有数据维度之上,通过适当的函数映射为新的数据维度(如矩形的长宽可以映射为长宽之比)。PCA是一种特征提取方式,是一种线性的映射方式。

results matching ""

    No results matching ""