以FIFA球员数据集为例

发布时间：2021-05-02 11:04:58 所属栏目：外闻来源：互联网

导读：形分类相关性简单来说，相关性是衡量两个变量如何一起运动的指标。例如，在现实生活中，收入与支出呈正相关，其中一个变量随着另一个变量的增加而增加。学习成绩和电子游戏的使用呈负相关，其中一个变量的增加意味着另一个变量的减少。因此如果预测变量

形分类相关性

简单来说，相关性是衡量两个变量如何一起运动的指标。

例如，在现实生活中，收入与支出呈正相关，其中一个变量随着另一个变量的增加而增加。

学习成绩和电子游戏的使用呈负相关，其中一个变量的增加意味着另一个变量的减少。

因此如果预测变量与目标变量呈正相关或负相关，那么该变量就有研究价值。

研究不同变量之间的相关性对于理解数据非常有意义。

使用Seaborn即可轻松创建出相当不错的关系图。的分类变量都去哪了?

你有注意到什么问题吗?

有问题，因为该图仅计算了数值列之间的相关性。

如果目标变量是club或position，会出现什么情况?

如果想得到三种不同情况之间的相关性，可使用以下相关性度量来计算。

1. 数值变量

该变量可通过Pearson相关性的方式得到，用于度量两个变量如何一起运动，范围为[-1，1]。

2. 分类变量

使用克莱姆V系数来分类案例。该系数是两个离散变量之间的相互关联，并与具有两个或多层次的变量一起使用。它也是一个对称的度量，因为变量的顺序无关紧要，即克莱姆(A,B)==克莱姆(B，A)。

例如，在数据集中，Club和Nationality一定有某种关联。

可用堆叠图来验证这一点，这是理解分类变量和分类变量间分布的一个***方法，因为在该数据中有很多国籍和俱乐部，所以使用数据的子集。

只保留***的球队(保留波尔图足球俱乐部只是为了让样本更加多样化)和最常见的国籍好在很大程度上反映了“国籍”：了解前者有助于预测后者。

由图可知，英国球员更可能效力于切尔西队或曼联队，而不是在巴塞罗那队、拜仁慕尼黑队或波尔图队。

同理，克莱姆V系数也也捕获到了同样的信息。

如果所有俱乐部拥有的球员的国籍比例相同，那么克莱姆V系数则为0。

如果每个俱乐部偏好单一国籍的球员，则克莱姆系数V==1，例如，所有的英国球员在曼联队效力，所有的德国球员在拜仁慕尼黑队效力等等。

在所有其他情况下，范围则为[0,1]。

3. 数值变量和分类变量

对连续分类案例使用相关比率。

在不涉及太多数学的情况下，该变量用于离散程度的衡量。

如果给定一个数字，就能找出它的类别吗?

例如，假设数据集中有“SprintSpeed”和“Position”两列分类，那么：

由上可知，这些数字很好地预测了他们所处的位置，因此相关性很高。

如果某球员冲刺速度超过85，那么该球员肯定是前锋。

这个比率也在[0,1]之间。

执行此操作的代码取自dython包，代码不会很多，最终结果如下：

（编辑：开发网_开封站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

美国基础设施加强！Co	科学家鉴定出好斗抑
MIT新研究比随机猜测	全球AI创新指数排名中