深度讨论集成学习技巧，解决AI实践难题

发布时间：2022-06-26 17:22:20 所属栏目：大数据来源：互联网

导读：集成学习方法是一类先进的机器学习方法，这类方法训练多个学习器并将它们结合起来解决一个问题，在实践中获得了巨大成功，并成为机器学习领域的常青树，受到学术界和产业界的广泛关注。本文选自周志华教授专著《集成学习：基础与算法》，带你进一步了解集成

　　集成学习方法是一类先进的机器学习方法，这类方法训练多个学习器并将它们结合起来解决一个问题，在实践中获得了巨大成功，并成为机器学习领域的“常青树”，受到学术界和产业界的广泛关注。

　　本文选自周志华教授专著《集成学习：基础与算法》，带你进一步了解集成学习方法及应用。

　　集成学习方法

　　和传统学习方法训练一个学习器不同，集成学习方法训练多个学习器并结合它们来解决一个问题。通常，集成学习也被称为基于委员会的学习（committee-based learning）或多分类器系统（mulTIple classifier system）。

　　下图为一个通用的集成学习框架。

　　深度讨论集成学习方法，解决AI实践难题

　　一个集成由多个基学习器（base learner）构成，而基学习器由基学习算法（base learning algorithm）在训练数据上训练获得，它们可以是决策树、神经网络或其他学习算法。

　　集成学习领域的发展得益于三个方面的早期研究，即：分类器结合、弱分类器集成和混合专家模型（mixture of experts）。

　　分类器结合主要来自模式识别领域。这方面的研究关注强分类器，试图设计强大的结合规则来获取更强的结合分类器，在设计和使用不同的结合规则上积累深厚。

　　弱分类器集成方面的研究主要集中在机器学习领域。这方面的研究关注弱分类器，试图设计强大的算法提升弱分类器的效果，产生了包括 AdaBoost 和 Bagging 等众多著名的集成学习算法，并且在将弱学习器提升为强学习器方面有深入的理论理解。

　　混合专家模型的研究主要集中在神经网络领域。在此，人们通常考虑使用分而治之的策略来共同学习一组模型，并结合使用它们获得一个总体解决方案。

　　20 世纪 90 年代以来，集成学习方法逐渐成为一个主要的学习范式，这主要得益于两项先驱性工作。其中，［Hansen & Salamon，1990］是实验方面的工作，如下图，它指出一组分类器的集成经常会产出比其中最优个体分类器更精准的预测；

　　集成学习方法的应用

　　KDD Cup作为最著名的数据挖掘竞赛，自 1997 年以来每年举办，吸引了全球大量数据挖掘队伍参加。竞赛包含多种多样的实际任务，如网络入侵检测（1999）、分子生物活性和蛋白质位点预测（2001）、肺栓塞检测（2006）、客户关系管理（2009）、教育数据挖掘（2010）和音乐推荐（2011）等。在诸多机器学习技术中，集成学习方法获得了高度的关注和广泛的使用。例如，在连续三年的 KDD Cup 竞赛中（2009—2011），获奖的冠军和亚军都使用了集成学习方法。

　　另一项著名的赛事 Netflix Prize由 Netflix 公司举办。竞赛任务是基于用户的历史偏好提升电影推荐的准确度，如果参赛队伍能在 Netflix 公司自己的算法基础上提升 10% 的准确度，就能够获取百万美元大奖。2009 年 9 月 21 日，Nexflix 公司宣布，百万美元大奖由 BellKor’s Pragmatic Chaos 队获得，他们的方案结合了因子模型、回归模型、玻尔兹曼机、矩阵分解、k-近邻等多种模型。另外还有一支队伍取得了和获奖队伍相同的效果，但由于提交结果晚了 20 分钟无缘大奖，他们同样使用了集成学习方法，甚至使用 “The Ensemble” 作为队名。

　　除了在竞赛上获得显赫战绩，集成学习方法还被成功应用到多种实际应用中。实际上，在几乎所有的机器学习应用场景中都能发现它的身影。例如，计算机视觉的绝大部分分支，如目标检测、识别、跟踪，都从集成学习方法中受益。

　　基于 AdaBoost 和级联结构，Viola & Jones ［2001，2004］提出了一套通用的目标检测框架。Viola & Jones ［2004］显示在一台 466MHz 计算机上，人脸检测器仅需 0.067 秒就可以处理 384×288 的图像，这几乎比当时最好的技术快 15倍，且具有基本相同的检测精度。在随后的十年间，这个框架被公认为计算机视觉领域最重大的技术突破。

　　在计算机系统中，用户行为会有不同的抽象层级，相关信息也会来自多个渠道，集成学习方法就非常适合于刻画计算机安全问题［Corona et al.，［2009］。Giacinto et al. ［2003］使用集成学习方法解决入侵检测问题。考虑到有多种特征刻画网络连接，他们为每一种特征构建了一个集成，并将这些集成的输出结合起来作为最终结果。Giacinto et al. ［2003］发现在检测未知类型的攻击时，集成学习方法能够获得最优的性能。此后，Giacinto et al. ［2008］提出了一种集成方法解决基于异常的入侵检测问题，该方法能够检测出未知类型的入侵。

　　恶意代码基本上可以分为三类：病毒、蠕虫和木马。通过给代码一个合适的表示，Schultz et al. ［2001］提出了一种集成学习方法用以自动检测以往未见的恶意代码。基于对代码的 n-gram 表示，Kolter & Maloof ［2006］发现增强决策树（boosted decision tree）能够获得最优的检测效果，同时他们表示这种方法可以在操作系统中检测未知类型的恶意代码。

　　对于老年痴呆症的早期诊断，以往的方法通常仅考虑来自脑电波的单信道数据。Polikar et al. ［2008］提出了一种集成学习方法来利用多信道数据;在此方法中，个体学习器基于来自不同电极、不同刺激和不同频率的数据进行训练，同时它们的输出被结合起来产生最终预测结果。

　　除了计算机视觉、安全和辅助诊断，集成学习方法还被应用到多个其他领域和任务中。例如，信用卡欺诈检测［Chan et al.，1999;Panigrahi et al.，2009］，破产预测［West et al.，2005］，蛋白质结构分类［Tan et al.，2003;Shen & Chou，2006］，种群分布预测［Araujo & New，2007］，天气预报［Maqsood et al.，2004;Gneiting & Raftery，2005］，电力负载预测［Taylor & Buizza，2002］，航空发动机缺陷检测［Goebel et al.，2000;Yan & Xue，2008］，音乐风格和艺术家识别［Bergstra et al.，2006］等。
　　

（编辑：开发网_开封站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

为何大数据为NFT创造了	浅析大数据的数据灾备
总做描述性统计深入的	使用替代数据的五个隐