以FIFA球员数据集为例
形分类相关性 简单来说,相关性是衡量两个变量如何一起运动的指标。 例如,在现实生活中,收入与支出呈正相关,其中一个变量随着另一个变量的增加而增加。 学习成绩和电子游戏的使用呈负相关,其中一个变量的增加意味着另一个变量的减少。 因此如果预测变量与目标变量呈正相关或负相关,那么该变量就有研究价值。 研究不同变量之间的相关性对于理解数据非常有意义。 使用Seaborn即可轻松创建出相当不错的关系图。的分类变量都去哪了? 你有注意到什么问题吗? 有问题,因为该图仅计算了数值列之间的相关性。 如果目标变量是club或position,会出现什么情况? 如果想得到三种不同情况之间的相关性,可使用以下相关性度量来计算。 1. 数值变量 该变量可通过Pearson相关性的方式得到,用于度量两个变量如何一起运动,范围为[-1,1]。 2. 分类变量 使用克莱姆V系数来分类案例。该系数是两个离散变量之间的相互关联,并与具有两个或多层次的变量一起使用。它也是一个对称的度量,因为变量的顺序无关紧要,即克莱姆(A,B)==克莱姆(B,A)。 例如,在数据集中,Club和Nationality一定有某种关联。 可用堆叠图来验证这一点,这是理解分类变量和分类变量间分布的一个***方法,因为在该数据中有很多国籍和俱乐部,所以使用数据的子集。 只保留***的球队(保留波尔图足球俱乐部只是为了让样本更加多样化)和最常见的国籍好在很大程度上反映了“国籍”:了解前者有助于预测后者。 由图可知,英国球员更可能效力于切尔西队或曼联队,而不是在巴塞罗那队、拜仁慕尼黑队或波尔图队。 同理,克莱姆V系数也也捕获到了同样的信息。 如果所有俱乐部拥有的球员的国籍比例相同,那么克莱姆V系数则为0。 如果每个俱乐部偏好单一国籍的球员,则克莱姆系数V==1,例如,所有的英国球员在曼联队效力,所有的德国球员在拜仁慕尼黑队效力等等。 在所有其他情况下,范围则为[0,1]。 3. 数值变量和分类变量 对连续分类案例使用相关比率。 在不涉及太多数学的情况下,该变量用于离散程度的衡量。 如果给定一个数字,就能找出它的类别吗? 例如,假设数据集中有“SprintSpeed”和“Position”两列分类,那么:
由上可知,这些数字很好地预测了他们所处的位置,因此相关性很高。 如果某球员冲刺速度超过85,那么该球员肯定是前锋。 这个比率也在[0,1]之间。
执行此操作的代码取自dython包,代码不会很多,最终结果如下: (编辑:开发网_开封站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |