未来十年，AI迎接小数据时代？

发布时间：2022-03-23 09:36:38 所属栏目：大数据来源：互联网

导读：不要相信那种（基于海量数据的AI优势）炒作。作为全球AI和机器学习领域最权威的学者之一，吴恩达教授近期谈到自己对下一步AI趋势的看法。未来AI从大数据转向小数据尽管业界在大数据和大模型取得了飞跃性的成果，但是这种规模化方法，并不适用于数据集不够

　　“不要相信那种（基于海量数据的AI优势）炒作。”作为全球AI和机器学习领域最权威的学者之一，吴恩达教授近期谈到自己对下一步AI趋势的看法。

　　未来AI从大数据转向小数据

　　尽管业界在大数据和大模型取得了飞跃性的成果，但是这种规模化方法，并不适用于数据集不够庞大的新兴行业或传统行业。

　　在传统行业，基于公开数据的预训练的大模型几乎派不上用场。

　　“庞大的搜索数据、经济数据对于检测零部件缺陷毫无用处，对于医疗记录也没有太大的帮助。”吴恩达教授表示。

　　更困难的是，与可获取海量用户数据的互联网公司不同，传统企业没有办法收集海量的特定数据来支撑AI训练。

　　例如，在汽车制造业中，由于精益6-sigma管理技术的广泛应用，大多数零件制造商和一级供应商都尽量保证每百万批次的产品中最多出现4个不合格产品。于是，制造商们就缺少了不合格产品的样本数据，从而很难训练出性能良好的用于产品质检的视觉检测模型。

　　最近一次的MAPI调查显示：58%的研究对象认为，部署AI解决方案最主要的困难是数据源的缺乏。

　　正如吴恩达教授所言：“过去十年，AI最大的转变是深度学习，而接下来的十年，我认为会转向以数据为中心。随着神经网络架构的成熟，对于许多实际应用来说，瓶颈将会存在于“如何获取、开发所需要的数据”。

　　随着各国数据和隐私安全法规纷纷落位，对AI技术监管收紧，AI的大数据红利期已经一去不复返。

　　吴恩达教授认为，基于融合式学习、增强式学习、知识转移等方法，小数据也可以发挥大的作用，未来AI的趋势之一是将从大数据向小数据过渡。

　　需要注意的是，小数据的“小”并不仅仅代表数据量小，也要求质量高的数据，这一点尤为重要。小数据是指使用符合需求的数据类型构建模型，从而生成商业洞察和实现自动化决策。

　　我们经常会看到有人对AI期望过高，仅仅收集几张图片数据，就期望获得一个高质量的模型。在实际部署时，是要找出最适合用于模型构建的那部分数据，用于输出正确内容。

　　对此，吴恩达教授举例道：一个经过训练的机器学习系统在大部分数据集上的表现还不错，却只在数据的一个子集上产生了偏差。这时候，如果要为了提高该子集的性能，而改变整个神经网络架构，这是相当困难的。但是，如果能仅对数据的一个子集进行设计，那么就可以更有针对性的解决这个问题。如，当背景中有汽车噪音时，有一个语音识别系统的表现会很差。了解了这一点，就可以在汽车噪音的背景下收集更多的数据，而不是所有的工作都要收集更多的数据，那样处理起来会非常昂贵且费时。

　　再比如，智能手机上有许多不同类型的缺陷，可能会是划痕、凹痕、坑痕、材料变色或者其它类型的瑕疵。如果训练过的模型在检测缺陷时总体表现很好，但在坑痕上表现得很差，那么合成数据的生成就可以更有针对性地解决这个问题，只为坑痕类别生成更多的数据。

　　事实上，小数据并不是一个全新的课题，在机器学习领域，小数据的处理方法已经越来越多。通过少样本学习技术，为机器学习模型提供少量训练数据，适合在模型处于完全监督学习状态而训练数据不足时使用。

　　少样本学习技术经常应用于计算机视觉领域。在计算机视觉中，模型可能不需要很多示例来识别某一对象。例如，具有用于解锁智能手机的面部识别算法，无需数千张本人的照片便可开启手机。

　　自监督学习的原理是，让模型从现有的数据中收集监督信号。模型利用现有数据来预测未观测到的或隐藏的数据。

　　例如，在自然语言处理中，数据科学家可能会在模型中输入一个缺少单词的句子，然后让这个模型预测所缺少的单词。从未隐藏的单词中获得足够的背景线索后，模型便学会识别句中隐藏的单词。

　　当给定数据集存在缺失，而现有数据无法填补时，就可以利用合成数据。

　　比较普遍的示例是面部识别模型。面部识别模型需要包含人类全部肤色的面部图像数据，但问题是，深色人脸的照片比浅色人脸的照片数据要少。数据科学家可以人工创建深色人脸数据，以实现其代表的平等性，而不是创建一个难以识别深色人脸的模型。

　　但机器学习专家必须在现实世界中更彻底地测试这些模型，并在计算机生成的数据集不足时，添加额外的训练数据。

　　2021年9月，美国网络安全和新兴技术局（简称CSET）发布的《小数据人工智能的巨大潜力》报告指出，长期被忽略的小数据（Small Data）人工智能潜力不可估量！

　　一是，缩短大小实体间AI能力差距。

　　由于不同机构收集、存储和处理数据的能力差异较大，AI的“富人”（如大型科技公司）和“穷人”之间正在拉开差距。使用小数据构建AI系统，能够大幅降低中小型企业进入AI的壁垒，减少传统企业项目的研发时间和成本，将成为数以万计的商业项目的重要突破口。

　　二是，促进数据匮乏领域的发展。

　　对于许多亟待解决的问题如：为没有电子健康记录的人构建预测疾病风险的算法，或者预测活火山突然喷发的可能性，可用数据很少或者根本不存在。

　　小数据方法以提供原则性的方式来处理数据缺失或匮乏。它可以利用标记数据和未标记数据，从相关问题迁移知识。小数据也可以用少量数据点创建更多数据点，凭借关联领域的先验知识，或通过构建模拟或编码结构假设去开始新领域的冒险。

　　三是，避免脏数据问题。

　　小数据方法能让对“脏数据”烦不胜烦的大型机构受益。不可计数的“脏数据”需要耗费大量人力物力进行数据清理、标记和整理才能够“净化”，而小数据方法中数据标记法可以通过自动生成标签更轻松地处理大量未标记的数据。迁移学习、贝叶斯方法或人工数据方法可以通过减少需要清理的数据量，分别依据相关数据集、结构化模型和合成数据来显着降低脏数据问题的规模。

　　四是，减少个人数据的收集。

　　全球各国都陆续出台了针对个人数据保护的政策法规，用小数据方法能够很大程度上减少收集个人数据的行为，通过人工合成数据或使用模拟训练算法，让使用机器学习变得更简单，从而让人们对大规模收集、使用或披露消费者数据不再担忧。

　　结语

　　AI依赖巨量数据、数据是必不可少的战略资源，但也绝不能低估小数据的潜力，尤其是在AI走向应用落地的下一个十年中，是时候从大数据转向小数据、优质数据了。

（编辑：开发网_开封站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

为何大数据为NFT创造了	浅析大数据的数据灾备
总做描述性统计深入的	使用替代数据的五个隐