700字范文 > 相关系数(皮尔逊pearson相关系数和斯皮尔曼spearman等级相关系数)

相关系数(皮尔逊pearson相关系数和斯皮尔曼spearman等级相关系数)

时间：2021-02-07 23:29:55

总体皮尔逊Person相关系数：

样本皮尔逊Person相关系数：

两点总结：

假设检验：（可结合概率论课本假设检验部分）

皮尔逊相关系数假设检验：

更好的方法：p值判断方法

皮尔逊相关系数假设检验的条件：

正态分布JB检验（大样本 n>30）

小样本3≤n≤50：Shapiro-wilk检验：

斯皮尔曼spearman相关系数：

MATLAB中计算斯皮尔曼相关系数：

斯皮尔曼相关系数的假设检验：

两个相关系数的比较:

相关系数：皮尔逊pearson相关系数和斯皮尔曼spearman等级相关系数，可用来衡量两个变量之间的相关性的大小

总体皮尔逊Person相关系数：

皮尔逊相关系数也可以看成是剔除了两个变量量纲影响，即将X和Y标准化后的协方差。

样本皮尔逊Person相关系数：

关于皮尔逊相关系数的一些理解误区：

这里的相关系数只是用来衡量两个变量线性相关程度的指标；

也就是说，你必须先确认这两个变量是线性相关的，然后这个相关系数才能

告诉你他俩相关程度如何。

容易忽视和犯错的点：

（1）非线性相关也会导致线性相关系数很大，例如图2。

（2）离群点对相关系数的影响很大，例如图3，去掉离群点后，相关系数为0.98。

（3）如果两个变量的相关系数很大也不能说明两者相关，例如图4，可能是受到

了异常值的影响。

（4）相关系数计算结果为0，只能说不是线性相关，但说不定会有更复杂的相关

关系（非线性相关），例如图5。

两点总结：

（1）如果两个变量本身就是线性的关系（前提），那么皮尔逊相关系数绝对值大的就是相关性强，小的就是相关性弱；

（2）在不确定两个变量是什么关系的情况下，即使算出皮尔逊相关系数，发现很大，也不能说明那两个变量线性相关，甚至不能说他们相关，我们一定要画出散点图来看才行。

对相关系数大小的解释：（图中仅为参考）

上表所定的标准从某种意义上说是武断的和不严格的。对相关系数的解释是依赖于具体的应用背景和目的的。

事实上，比起相关系数的大小，我们往往更关注的是显著性。（假设检验）

描述性统计：

MATLAB中基本统计量的函数：

代码：

MIN = min(Test); % 每一列的最小值MAX = max(Test); % 每一列的最大值MEAN = mean(Test); % 每一列的均值MEDIAN = median(Test); %每一列的中位数SKEWNESS = skewness(Test); %每一列的偏度KURTOSIS = kurtosis(Test); %每一列的峰度STD = std(Test); % 每一列的标准差RESULT = [MIN;MAX;MEAN;MEDIAN;SKEWNESS;KURTOSIS;STD]%将这些统计量放到一个矩阵中表示

将计算结果复制到EXCEL表格中，进行描述性统计，最后可将表加到论文中

描述性统计结果和矩阵散点图都可以用spss来实现

如果散点图存在一定线性关系，下面我们来计算皮尔逊相关系数：R=corrcoef(Test)（可将美化后的相关系数表放到论文中）

假设检验：（可结合概率论课本假设检验部分）

皮尔逊相关系数假设检验：

更好的方法：p值判断方法

计算各列之间的相关系数以及p值：

一行代码：[R,P]=corrcoef(Test)

R返回的是相关系数表，P返回的是对应于每个相关系数的p值

%% 计算各列之间的相关系数以及p值[R,P] = corrcoef(Test)% 在EXCEL表格中给数据右上角标上显著性符号吧P < 0.01 % 标记3颗星的位置 (P < 0.05) .* (P > 0.01) % 标记2颗星的位置(P < 0.1) .* (P > 0.05) % 标记1颗星的位置

可以用spss构造标记显著性的相关系数表加到论文中

皮尔逊相关系数假设检验的条件：

第一，实验数据通常假设是成对的来自于正态分布的总体。因为我们在求皮尔

逊相关性系数以后，通常还会用t检验之类的方法来进行皮尔逊相关性系数检验，

而t检验是基于数据呈正态分布的假设的。

第二，实验数据之间的差距不能太大。皮尔逊相关性系数受异常值的影响比较

大。

第三：每组样本之间是独立抽样的。构造t统计量时需要用到。

偏度和峰度：

x = normrnd(2,3,100,1);% 生成100*1的随机向量，每个元素是均值为2，标准差为3的正态分布skewness(x) %偏度kurtosis(x) %峰度

正态分布JB检验（大样本 n>30）

MATLAB中进行JB检验的语法：[h,p]=jbtest(x,alpha)

当输出h等于1时，表示拒绝原假设；h等于0则代表不能拒绝原假设。

alpha就是显著性水平，一般取0.05，此时置信水平为1‐0.05=0.95

x就是我们要检验的随机变量，注意这里的x只能是向量。

MATLAB代码：

%% 正态分布检验% 检验第一列数据是否为正态分布[h,p] = jbtest(Test(:,1),0.05)% 用循环检验所有列的数据n_c = size(Test,2); % number of column 数据的列数H = zeros(1,6);P = zeros(1,6);for i = 1:n_c[h,p] = jbtest(Test(:,i),0.05);H(i)=h;P(i)=p;enddisp(H)disp(P)