700字范文,内容丰富有趣,生活中的好帮手!
700字范文 > 相关系数(皮尔逊pearson相关系数和斯皮尔曼spearman等级相关系数)

相关系数(皮尔逊pearson相关系数和斯皮尔曼spearman等级相关系数)

时间:2021-02-07 23:29:55

相关推荐

相关系数(皮尔逊pearson相关系数和斯皮尔曼spearman等级相关系数)

目录

总体皮尔逊Person相关系数:

样本皮尔逊Person相关系数:

两点总结:

假设检验:(可结合概率论课本假设检验部分)

皮尔逊相关系数假设检验:

更好的方法:p值判断方法

皮尔逊相关系数假设检验的条件:

正态分布JB检验(大样本 n>30)

小样本3≤n≤50:Shapiro-wilk检验:

斯皮尔曼spearman相关系数:

MATLAB中计算斯皮尔曼相关系数:

斯皮尔曼相关系数的假设检验:

两个相关系数的比较:

相关系数:皮尔逊pearson相关系数和斯皮尔曼spearman等级相关系数,可用来衡量两个变量之间的相关性的大小

总体皮尔逊Person相关系数:

皮尔逊相关系数也可以看成是剔除了两个变量量纲影响,即将X和Y标准化后的协方差。

样本皮尔逊Person相关系数:

关于皮尔逊相关系数的一些理解误区:

这里的相关系数只是用来衡量两个变量线性相关程度的指标;

也就是说,你必须先确认这两个变量是线性相关的,然后这个相关系数才能

告诉你他俩相关程度如何。

容易忽视和犯错的点:

(1)非线性相关也会导致线性相关系数很大,例如图2。

(2)离群点对相关系数的影响很大,例如图3,去掉离群点后,相关系数为0.98。

(3)如果两个变量的相关系数很大也不能说明两者相关,例如图4,可能是受到

了异常值的影响。

(4)相关系数计算结果为0,只能说不是线性相关,但说不定会有更复杂的相关

关系(非线性相关),例如图5。

两点总结:

(1)如果两个变量本身就是线性的关系(前提),那么皮尔逊相关系数绝对值大的就是相关性强,小的就是相关性弱;

(2)在不确定两个变量是什么关系的情况下,即使算出皮尔逊相关系数,发现很大,也不能说明那两个变量线性相关,甚至不能说他们相关,我们一定要画出散点图来看才行。

对相关系数大小的解释:(图中仅为参考)

上表所定的标准从某种意义上说是武断的和不严格的。对相关系数的解释是依赖于具体的应用背景和目的的。

事实上,比起相关系数的大小,我们往往更关注的是显著性。(假设检验)

描述性统计:

MATLAB中基本统计量的函数:

代码:

MIN = min(Test); % 每一列的最小值MAX = max(Test); % 每一列的最大值MEAN = mean(Test); % 每一列的均值MEDIAN = median(Test); %每一列的中位数SKEWNESS = skewness(Test); %每一列的偏度KURTOSIS = kurtosis(Test); %每一列的峰度STD = std(Test); % 每一列的标准差RESULT = [MIN;MAX;MEAN;MEDIAN;SKEWNESS;KURTOSIS;STD]%将这些统计量放到一个矩阵中表示

将计算结果复制到EXCEL表格中,进行描述性统计,最后可将表加到论文中

描述性统计结果和矩阵散点图都可以用spss来实现

如果散点图存在一定线性关系 ,下面我们来计算皮尔逊相关系数:R=corrcoef(Test)(可将美化后的相关系数表放到论文中)

假设检验:(可结合概率论课本假设检验部分)

皮尔逊相关系数假设检验:

更好的方法:p值判断方法

计算各列之间的相关系数以及p值:

一行代码:[R,P]=corrcoef(Test)

R返回的是相关系数表,P返回的是对应于每个相关系数的p值

%% 计算各列之间的相关系数以及p值[R,P] = corrcoef(Test)% 在EXCEL表格中给数据右上角标上显著性符号吧P < 0.01 % 标记3颗星的位置 (P < 0.05) .* (P > 0.01) % 标记2颗星的位置(P < 0.1) .* (P > 0.05) % 标记1颗星的位置

可以用spss构造标记显著性的相关系数表加到论文中

皮尔逊相关系数假设检验的条件:

第一, 实验数据通常假设是成对的来自于正态分布的总体。因为我们在求皮尔

逊相关性系数以后,通常还会用t检验之类的方法来进行皮尔逊相关性系数检验,

而t检验是基于数据呈正态分布的假设的。

第二, 实验数据之间的差距不能太大。皮尔逊相关性系数受异常值的影响比较

大。

第三:每组样本之间是独立抽样的。构造t统计量时需要用到。

偏度和峰度:

x = normrnd(2,3,100,1);% 生成100*1的随机向量,每个元素是均值为2,标准差为3的正态分布skewness(x) %偏度kurtosis(x) %峰度

正态分布JB检验(大样本 n>30)

MATLAB中进行JB检验的语法:[h,p]=jbtest(x,alpha)

当输出h等于1时,表示拒绝原假设;h等于0则代表不能拒绝原假设。

alpha就是显著性水平,一般取0.05,此时置信水平为1‐0.05=0.95

x就是我们要检验的随机变量,注意这里的x只能是向量。

MATLAB代码:

%% 正态分布检验% 检验第一列数据是否为正态分布[h,p] = jbtest(Test(:,1),0.05)% 用循环检验所有列的数据n_c = size(Test,2); % number of column 数据的列数H = zeros(1,6);P = zeros(1,6);for i = 1:n_c[h,p] = jbtest(Test(:,i),0.05);H(i)=h;P(i)=p;enddisp(H)disp(P)

小样本3≤n≤50:Shapiro-wilk检验:

Q-Q图法:

要利用Q‐Q图鉴别样本数据是否近似于正态分布,只需看Q‐Q图上的点

是否近似地在一条直线附近。(要求数据量非常大)

斯皮尔曼spearman相关系数:

注:如果有的数值相同,则将它们所在的位置取算术平均

MATLAB中计算斯皮尔曼相关系数:

两种用法

(1)corr(X,Y,‘type’,‘Spearman’)

这里的X和Y必须是列向量哦~

(2)corr(X,‘type’,‘Spearman’)

这时计算X矩阵各列之间的斯皮尔曼相关系数

斯皮尔曼相关系数的假设检验:

分为小样本和大样本两种情况:

小样本情况,即𝒏 < 𝟑𝟎时,直接查临界值表即可。

% 直接给出相关系数和p值 [R,P]=corr(Test, ‘type’ , ‘Spearman’)

两个相关系数的比较:

1.连续数据,正态分布,线性关系,用pearson相关系数是最恰当,当然用

spearman相关系数也可以, 就是效率没有pearson相关系数高。

2.上述任一条件不满足,就用spearman相关系数,不能用pearson相关系数。

3.两个定序数据之间也用spearman相关系数,不能用pearson相关系数。

定序数据是指仅仅反映观测对象等级、顺序关系的数据,是由定序尺度计量

形成的,表现为类别,可以进行排序,属于品质数据。

例如:优、良、差;

我们可以用1表示差、2表示良、3表示优,但请注意,用2除以1得出的2并不

代表任何含义。定序数据最重要的意义代表了一组数据中的某种逻辑顺序。

注:斯皮尔曼相关系数的适用条件比皮尔逊相关系数要广,只要数据满足单调关系

(例如线性函数、指数函数、对数函数等)就能够使用

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。