特征选择一般分为两种,一种是基于模型的特征选择,另一种是基于统计的特征选择。相关系数是最常用的几种基于统计的特征选择方法之一,它用于描述两个随机变量XXX和YYY之间的相关性。最常见的三大相关系数分别是皮尔逊相关系数(Pearson correlation coefficient),斯皮尔曼相关系数(Spearman’s rank correlation coefficient),和肯德尔相关系数(Kendall rank correlation coefficient)。一般提到相关系数时,指的都是皮尔逊相关系数。
皮尔逊相关系数
皮尔逊相关系数是最为常用的相关系数,适用于服从正态分布的连续变量。皮尔逊相关系数描述的是两个随机变量XXX和YYY之间的线性相关性,计算公式为:
ρX,Y=cov(X,Y)σXσY\rho_{X,Y}=\frac{cov(X,Y)}{\sigma_X\sigma_Y}ρX,Y=σXσYcov(X,Y)
其中covcovcov是协方差,σ\sigmaσ是标准差。对于上式,可以将cov(X,Y)=E(XY)−E(X)E(Y)cov(X,Y)=E(XY)-E(X)E(Y)cov(X,Y)=E(XY)−E(X)E(Y)以及σX2=E(X2)−[E(X)]2\sigma_X^2=E(X^2)-[E(X)]^2σX2=E(X2)−[E(X)]2代入,变形为:
ρX,Y=E(XY)−E(X)E(Y)E(X2)−[E(X)]2E(Y2)−[E(Y)]2\rho_{X,Y}=\frac{E(XY)-E(X)E(Y)}{\sqrt{E(X^2)-[E(X)]^2}\sqrt{E(Y^2)-[E(Y)]^2}}ρX,Y=E(X2)−[E(X)]2E(Y2)−[E(Y)]2E(XY)−E(X)E(Y)
相关系数取值范围是[−1,1][-1, 1][−1,1],当相关系数为111时,表示两个变量之间有严格的线性正相关,当相关系数为−1-1−1时,表示两个变量之间有严格的线性负相关。由于相关系数反映的是变量之间的线性相关性,因此当相关系数接近000时,只能得出两个变量之间几乎无线性关联,但是依旧有可能存在其他形式的相关性。