如何机器学习的几大步骤

发布时间：2021-05-11 11:49:52 所属栏目：大数据来源：互联网

导读：步骤1：收集数据为了开发我们的机器学习模型，我们的第一步将是收集可用于区分这两种成果的相关数据。可以使用不同的参数将水果分类为橙色或苹果。为简单起见，我们仅采用模型要利用的2个功能来执行其操作。第一个特征是水果本身的颜色，第二个特征是水果的

步骤1：收集数据

为了开发我们的机器学习模型，我们的第一步将是收集可用于区分这两种成果的相关数据。可以使用不同的参数将水果分类为橙色或苹果。为简单起见，我们仅采用模型要利用的2个功能来执行其操作。第一个特征是水果本身的颜色，第二个特征是水果的形状。使用这些功能，我们希望我们的模型可以准确地区分两种水果。

需要一种机制来收集我们选择的两个功能的数据。例如，为了收集有关颜色的数据，我们可以使用光谱仪，对于形状数据，我们可以使用水果的图片，以便可以将它们视为2D图形。为了收集数据，我们将尝试获取尽可能多的不同类型的苹果和橙子，以便为我们的功能创建各种数据集。为此，我们可能会尝试在市场上寻找可能来自世界不同地区的橙子和苹果。

收集数据的步骤是机器学习过程的基础。选择错误的功能或专注于数据集的有限类型条目等错误可能会使模型完全失效。这就是为什么当收集数据时必须考虑必要的原因的原因，因为在此阶段所犯的错误只会随着我们进行到后续阶段而扩大。

步骤2：准备该数据

一旦我们收集了这两个功能的数据，下一步就是准备数据以供进一步使用。此阶段的重点是识别并最小化我们针对这两个功能的数据集中的任何潜在偏差。首先，我们将随机化这两个水果的数据顺序。这是因为我们不希望订单与模型的选择有任何关系。此外，我们将检查我们的数据集是否偏向某个特定水果。这又将有助于识别和纠正潜在的偏见，因为这将意味着该模型将能够正确地识别一种水果，但可能会与另一种水果抗争。

数据准备的另一个主要组成部分是将数据集分为两部分。较大的部分(约80%)将用于训练模型，而较小的部分(约20%)用于评估。这很重要，因为在培训和评估中使用相同的数据集将无法公平评估模型在实际场景中的性能。除了拆分数据外，还需要采取其他措施来完善数据集。这可能包括删除重复的条目，丢弃不正确的读数等。

为模型准备充分的数据可以提高其效率。它可以帮助减少模型的盲点，从而提高预测的准确性。因此，有意义的是审议和检查你们的数据集，以便可以对其进行微调以产生更好和有意义的结果。

步骤3：选择模型

一旦完成了以数据为中心的步骤，选择模型类型就是我们的下一个行动方案。由数据科学家开发的各种现有模型可以用于不同的目的。这些模型在设计时考虑了不同的目标。例如，某些模型更适合处理文本，而另一种模型可能更适合处理图像。关于我们的模型，简单的线性回归模型适用于区分水果。在这种情况下，水果的类型将是我们的因变量，而水果的颜色和水果的形状将是两个预测变量或自变量。

在我们的示例中，模型选择非常简单。在更复杂的情况下，我们需要做出与预期结果相匹配的选择。可以在3大类中探索机器学习模型的选项。第一类是监督学习模型。在这样的模型中，结果是已知的，因此我们不断改进模型本身，直到我们的输出达到所需的精度水平。为我们的水果模型选择的线性回归模型是监督学习的一个例子。如果结果未知，我们需要分类，则使用第二类，即无监督学习。无监督学习的示例包括K-means和Apriori算法。第三类是强化学习。它着重于学习在反复试验的基础上做出更好的决策。它们通常在商业环境中使用。马尔可夫的决策过程就是一个例子。

（编辑：开发网_开封站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

为何大数据为NFT创造了	浅析大数据的数据灾备
总做描述性统计深入的	使用替代数据的五个隐