加入收藏 | 设为首页 | 会员中心 | 我要投稿 开发网_开封站长网 (http://www.0378zz.com/)- 科技、AI行业应用、媒体智能、低代码、办公协同!
当前位置: 首页 > 站长资讯 > 外闻 > 正文

以FIFA球员数据集为例

发布时间:2021-05-02 11:04:58 所属栏目:外闻 来源:互联网
导读:形分类相关性 简单来说,相关性是衡量两个变量如何一起运动的指标。 例如,在现实生活中,收入与支出呈正相关,其中一个变量随着另一个变量的增加而增加。 学习成绩和电子游戏的使用呈负相关,其中一个变量的增加意味着另一个变量的减少。 因此如果预测变量

形分类相关性

简单来说,相关性是衡量两个变量如何一起运动的指标。

例如,在现实生活中,收入与支出呈正相关,其中一个变量随着另一个变量的增加而增加。

学习成绩和电子游戏的使用呈负相关,其中一个变量的增加意味着另一个变量的减少。

因此如果预测变量与目标变量呈正相关或负相关,那么该变量就有研究价值。

研究不同变量之间的相关性对于理解数据非常有意义。

使用Seaborn即可轻松创建出相当不错的关系图。的分类变量都去哪了?

你有注意到什么问题吗?

有问题,因为该图仅计算了数值列之间的相关性。

如果目标变量是club或position,会出现什么情况?

如果想得到三种不同情况之间的相关性,可使用以下相关性度量来计算。

1. 数值变量

该变量可通过Pearson相关性的方式得到,用于度量两个变量如何一起运动,范围为[-1,1]。

2. 分类变量

使用克莱姆V系数来分类案例。该系数是两个离散变量之间的相互关联,并与具有两个或多层次的变量一起使用。它也是一个对称的度量,因为变量的顺序无关紧要,即克莱姆(A,B)==克莱姆(B,A)。

例如,在数据集中,Club和Nationality一定有某种关联。

可用堆叠图来验证这一点,这是理解分类变量和分类变量间分布的一个***方法,因为在该数据中有很多国籍和俱乐部,所以使用数据的子集。

只保留***的球队(保留波尔图足球俱乐部只是为了让样本更加多样化)和最常见的国籍好在很大程度上反映了“国籍”:了解前者有助于预测后者。

由图可知,英国球员更可能效力于切尔西队或曼联队,而不是在巴塞罗那队、拜仁慕尼黑队或波尔图队。

同理,克莱姆V系数也也捕获到了同样的信息。

如果所有俱乐部拥有的球员的国籍比例相同,那么克莱姆V系数则为0。

如果每个俱乐部偏好单一国籍的球员,则克莱姆系数V==1,例如,所有的英国球员在曼联队效力,所有的德国球员在拜仁慕尼黑队效力等等。

在所有其他情况下,范围则为[0,1]。

3. 数值变量和分类变量

对连续分类案例使用相关比率。

在不涉及太多数学的情况下,该变量用于离散程度的衡量。

如果给定一个数字,就能找出它的类别吗?

例如,假设数据集中有“SprintSpeed”和“Position”两列分类,那么:

  • 守门员:58(De Gea)、52(T. Courtois)、58(M. Neuer)、 43(G. Buffon)
  • 中后卫:68(D. Godin)、59(V. Kompany)、73(S. Umtiti)、 75(M. Benatia)
  • 前锋:91(C.Ronaldo)、94(G. Bale)、80(S.Aguero)、 76(R. Lewandowski)

由上可知,这些数字很好地预测了他们所处的位置,因此相关性很高。

如果某球员冲刺速度超过85,那么该球员肯定是前锋。

这个比率也在[0,1]之间。

执行此操作的代码取自dython包,代码不会很多,最终结果如下:

(编辑:开发网_开封站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读