做机器学习项目数据不够？

发布时间：2021-04-29 11:27:39 所属栏目：外闻来源：互联网

导读：模型正广泛用于应对各种业务挑战。但是这些模型需要大量数据，其性能也在很大程度上取决于训练数据的多少。但是在许多情况下，AI团队很难创建足够大的训练数据集。同时还有另一个问题，那就是项目分析师可能会低估处理常见业务问题所需的数据量。在为大公司

模型正广泛用于应对各种业务挑战。但是这些模型需要大量数据，其性能也在很大程度上取决于训练数据的多少。但是在许多情况下，AI团队很难创建足够大的训练数据集。

同时还有另一个问题，那就是项目分析师可能会低估处理常见业务问题所需的数据量。在为大公司工作时，收集数据会更加复杂。

我需要多少数据?

在许多情况下，你需要大约10倍的数据，因为模型中有自由度。模型越复杂，就越容易过度拟合，但可以通过模型校验来避免。不过，根据用例的实际情况，所需的数据可以适当减少。

还有必要讨论一下的是，如何处理缺失值的问题。特别是如果数据中缺失值的数量足够大(超过5%)。

值得一提的是，处理缺失值依赖某些既定的“成功”标准。此外，这些标准对于不同的数据集甚至对于不同的应用也是不同的，例如识别、分割、预测和分类(给定相同的数据集)。

选择什么样的解决方案取决于问题的类型——如时间序列分析，ML，回归等。

涉及到预测技术时，只有当缺失值不是完全随机观察到的时候才应该进行使用，并且需要选择变量来估算这些缺失值与它有某种关系，否则可能产生不精确的估计。

一般来说，可以使用不同的机器学习算法来确定缺失值。可以将缺少的特征转换为标签本身，然后再使用没有缺失值的列来预测具有缺失值的列。

根据笔者的经验，如果你决定构建一个基于AI的解决方案，那么在某些时候你将面临缺乏数据或缺少数据的问题，但幸运的是，有很多方法可以将这个“负”变为“正”。

缺少数据?

如上所述，不可能精确估计AI项目所需的最小数据量，项目本身将显著影响你需要的数据量的多少。例如，文本、图像和视频通常需要更多数据。但是，为了做出准确的估计，还应考虑许多其他因素。

模型的预期输出是什么?基本上来说，数量或类别越少越好。

如果你计划将项目投入生产，则需要更多。一个小数据集，用于概念验证可能足够了，但在生产中，你需要更多数据。

一般来说，小型数据集需要低复杂度(或高偏差)的模型，以避免模型对数据的过度拟合。

非技术解决方案

在探究技术解决方案之前，让我们分析一下可以通过哪些方法来增强数据集。这可能是一句废话，但在开始AI项目之前，需要通过开发外部和内部工具尽可能多地收集数据。如果你知道机器学习算法预期要执行的任务，那就可以提前创建数据收集机制。

另外在启动ML项目时，你也可以借助开源数据。网络上有很多可用于ML的数据，其所属公司已经准备好将其弃用。

如果你需要项目的外部数据，与其他组织建立合作伙伴关系以获取相关数据的办法可能会有用。形成合作关系显然会花费你一些时间，但获得的专有数据将为你提供天然的竞争力。

构建一个有用的应用程序，别管这个应用，只用数据

笔者在之前的项目中使用的另一种方法是向客户提供对云应用程序的访问权限，进入应用的数据可用于构建机器学习模型。笔者以前的客户为医院建立了一个应用程序并供其免费使用。我们收集了大量数据，并设法为我们的ML解决方案创建了一个独特的数据集。

根据笔者的经验，使用小数据集构建预测模型的一些常用方法有：

通常，机器学习算法越简单，就越能从小数据集中学习。从ML的角度来看，小数据需要具有低复杂度(或高偏差)的模型，以避免将模型过度拟合到数据。朴素贝叶斯算法是最简单的分类器之一，因此从相对较小的数据集中学习得非常好。

（编辑：开发网_开封站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

美国基础设施加强！Co	科学家鉴定出好斗抑
MIT新研究比随机猜测	全球AI创新指数排名中