Python分析变量之间的相关性

提问人:罗亦霆时间:2021-09-11 21:25:40

今天遇到个纠结的问题,Python分析变量之间的相关性?求助

6个回答
崔昕怡

方法/步骤

第一步我们首先需要知道相关性主要有两个方向,一个是正方向一个是负方向,相关性系数是衡量两个变量之间影响程度,如下图所示

请点击输入图片描述

第二步下面通过公式计算两个变量之间相关性系数,代码如下

X=[52,19,7,33,2]

Y=[162,61,22,100,6]

#公式计算#均值XMean=numpy.mean(X)

YMean=numpy.mean(Y)

#标准差XSD=numpy.std(X)

YSD=numpy.std(Y)

#z分数ZX=(XXMean)/XSD

ZY=(YYMean)/YSD#相关系数

r=numpy.sum(ZX*ZY)/(len(X))

print(r)

请点击输入图片描述

第三步运行程序,可以得到相关性系数r,r的值是0.,相关性非常高,如下图所示

请点击输入图片描述

第四步我们也可以通过numpy的corrcoef方法计算相关性系数,输入代码

t=numpy.corrcoef(X,Y)

print(t)

可以看到X与Y和Y与X的相关性系数,如下图所示

请点击输入图片描述

请点击输入图片描述

第五步我们也可以通过pandas的corr方法计算相关性系数,代码

data=pandas.DataFrame({'X':X,'Y':Y})

t2=data.corr

print(t2)

得到了相同的结果,如下图所示

请点击输入图片描述

请点击输入图片描述

董庭昊

1.运算优先级

括号、指数、乘、除、加、减

2

如果你使用了非ASCII字符而且碰到了编码错误,记得在最顶端加一行#coding:utf8

3.Python格式化字符

使用更多的格式化字符。例如%r就是是非常有用的一个,它的含义是“不管什么都打印出来”。

%sstring

%%百分号标记#就是输出一个%

%c字符及其ASCII码

%s字符串

%d有符号整数(十进制)

%u无符号整数(十进制)

%o无符号整数(八进制)

%x无符号整数(十六进制)

%X无符号整数(十六进制大写字符)

%e浮点数字(科学计数法)

%E浮点数字(科学计数法,用E代替e)

%f浮点数字(用小数点符号)

%g浮点数字(根据值的大小采用%e或%f)

%G浮点数字(类似于%g)

%p指针(用十六进制打印值的内存地址)

%n存储输出字符的数量放进参数列表的下一个变量中

%c转换成字符(ASCII码值,或者长度为一的字符串)

%r优先用repr函数进行字符串转换(Python2.

辅助符号说明

*定义宽度或者小数点精度

+在正数前面显示加号(+)

sp>在正数前面显示空格

#在八进制数前面显示零(0),在十六进制前面显示“0x”或者“0X”(取决于用的是“x”还是“X”)

0显示的数字前面填充“0”而不是默认的空格

m.nm是显示的最小总宽度,n是小数点后的位数(如果可用的话)

文炯岚

首先建立两个变量如x,y,把数据录入进去(两列),在analysis里头,选correlate,分别把x,y放进去,点OK就可以得到结果。

裴延兆

1.分析两个变量属于什么类型

2.具体类型

(1)二元正态分布用皮尔逊相关系数

(2)两分布未知、非二元正态、两等级资料用spearman等级相关系数

(3)两个二分类用phi相关系数,两个多分类的我有点忘记了,好像是v,具体忘记了

(4)两个等级用gamma相关系数

经雪阳

R语言中有arules包,看看这包的使用方法;作关联规则分析即可。

康宇辰

线性相关主要采用皮尔逊相关系数来度量连续变量之间的线性相关强度;线性相关系数|r|相关程度0=|r|0.3低度相关0.3=|r|0.8中度相关0.8=|r|1高度相关1函数相关分析函数DataFrame.corrSeries.corr(other)说明如果由数据框调用corr方法,那么将会计算每个列两两之间的相似度如果由序列调用corr方法,那么只是计算该序列与传入序列之间的相关度返回值dataFrame调用返回调用返回一个数值型,大小为相关度2案例=pandas.read_csv('C:\Users\Desktop\test.csv')print(data.corr)#由数据框调用corr方法,将会计算每个列两两之间的相似度,返回的是一个矩形print(data['人口'].corr(data['文盲率']))#由某一列调用corr方法,只是计算该序列与传入序列(本例中的'文盲率')之间的相关度print(data['超市购物率','网上购物率','文盲率','人口']).corr

相关的问题
  • python多元回归分析控制变量

    多元线性回归1.打开数据,依次点击,打开多元线性回归对话框。2.将因变量和自变量放入格子的列表里,上面的是因变量,下面的是自变量。3.设置回归方法,这里选择最简单的方法enter,它指的是将所有的变量一次纳入到方程。其他方法都是逐步进入的方法。4.等级资料,连续资料不需要设置虚拟变量。多分类变

  • python定性变量数据分析

    1、Python数据分析流程及学习路径数据分析的流程概括起来主要是读写、处理计算、分析建模和可视化四个部分。在不同的步骤中会用到不同的Python工具。每一步的主题也包含众多内容。根据每个部分需要用到的工具,Python数据分析的学习路径如下相关推荐《

  • python数据单变量分析

    无论是自学还是怎么的,记住自己学习Python的目标——从事数据科学,而非Python软件开发。所以,Python入门的方向,应该是掌握Python所有的相关概念、基础知识,为后续Python库的学习打基础。需要掌握的数据分析基本库有NumpyNumpy是Pytho

  • python虚拟变量回归分析

    分析回归线性,把IOP调入因变量框,把其它两个调入自变量框,确定。得到的结果就是变截距的虚拟变量模型。还是即变截距也变斜率的虚拟变量模型,那样的话,要生成一个新的自变量,即性别与能量的乘积,再回归就可以了。

  • python类变量回归分析

    线性回归设x,y分别为一组数据,代码如下.ro=np.polyfit(x,y,deg=1)#deg为拟合的多项式的次数(线性回归就选1)ry=np.polyval(ro,x)#忘记x和ro哪个在前哪个在后了。。。printr

  • python相关性分析筛选变量

    1.运算优先级括号、指数、乘、除、加、减2如果你使用了非ASCII字符而且碰到了编码错误,记得在最顶端加一行#coding:utf83.Python格式化字符使用更多的格式化字符。例如%r就是是非常有用的一个,它的含义是“不

  • 多变量回归分析python

    因变量是你自己确定的,一般主成分得分是作为自变量的,叫主成分回归分析

  • python计算双变量相关分析

    线性相关主要采用皮尔逊相关系数来度量连续变量之间的线性相关强度;线性相关系数|r|相关程度0=|r|0.3低度相关0.3=|r|0.8中度相关0.8=|r|1高度相关1函数相关分析函数DataFrame.corrSeries.corr(other)说明如果由数据框调用corr方法,那么将会计算

  • python多变量相关性分析案例

    方法/步骤第一步我们首先需要知道相关性主要有两个方向,一个是正方向一个是负方向,相关性系数是衡量两个变量之间影响程度,如下图所示请点击输入图片描述第二步下面通过公式计算两个变量之间相关性系数,代码

  • python中多变量关联分析有哪些包

    是一个在多种编程语言之间进行交互计算的命令行shell,最开始是用python开发的,提供增强的内省,富媒体,扩展的shell语法,tab补全,丰富的历史等功能。IPython提供了如下特性更强的交互shell(基于Qt的终端)一个基于浏览器的记事本,支持代码,纯文本,数学公式,内置图表和其他