逆天的语言AI模型来了！编故事以假乱真，问答翻译写摘要都行

发布时间：2019-02-24 11:22:20 所属栏目：经验来源：关注前沿科技

导读：副标题#e# 本文经AI新媒体量子位（公众号 ID: QbitAI）授权转载，转载请联系出处 AI一本正经的胡编起来，已经逼真的让人不敢相信。刚刚，OpenAI发布了一个逆天的语言AI，整个模型包含15亿个参数。这个AI写起文章来文思泉涌毫无违和感，无需针对性训练就能

36000年前，史前人类在现代法国一个洞穴的粗糙石灰岩墙壁上勾勒出了一系列令人难以置信的史前野兽……(省略若干字)…………现在，在尖端技术的帮助下，Chauvet-Pont-d’Arc洞穴的艺术作品被复制，创造了世界上最大的复制洞穴。

不错，一段看起来就“很阅读理解”的朴素文风，GPT-2的处理情况如何?还不错：

位于法国南部Vallon-Pont-D’arc的原始遗址是联合国教科文组织世界遗产，是已知最古老、保存最完好的人类装饰洞穴。复制洞穴距离法国南部Vallon-Pont-D’Arc的原址几英里，洞穴内包含14种不同动物的图像，包括长毛犀，猛犸象和大型猫科动物。

第三题，完美✅

怎么样，感受到GPT-2的威力了么?关于GPT-2做题的例子还有很多，文末的OpenAI博客原文，还可以查看更多。

它是怎么做的?

GPT-2，是GPT的“进化版”，最大区别就在于规模大小。OpenAI在官方博客中表示，两者相比，GPT-2的参数扩大10倍，达到了15亿个，数据量扩大10倍，使用了包含800万个网页的数据集，共有40GB。

但在很大程度上，模型还是和GPT一样：

使用语言建模作为训练信号，以无监督的方式在大型数据集上训练一个Transformer，然后在更小的监督数据集上微调这个模型，以帮助它解决特定任务。

逆天的语言AI模型来了！编故事以假乱真，问答翻译写摘要都行

△GPT模型

上图左部分，是研究中使用的Transformer架构以及训练目标。右边部分，是针对特定任务进行微调。

将所有结构化输入转换为token序列，由预训练模型处理，然后经过线性+softmax层处理。

就GPT-2而言，它的训练目标很简单：根据所有给定文本中前面的单词，预测下一个单词。

由于训练数据集的多样性，使得这个目标非常简单的模型，具备了解决不同领域各种问题的能力。

一把双刃剑

显然，GPT-2这样一个强大的通用模型，会带来巨大的社会影响。

比如，它能用于开发AI写作助理、更强大的语音助手、提高不同语言之间无监督翻译的性能，甚至构建更好的语音识别系统。

但同样，它同样也能用来干坏事，就像用图像合成的研究造假一样，比如deepfake，让多少人苦不堪言。

GPT-2可以用来生成具有误导性的新闻报道、自动生成垃圾邮件、伪造内容发布到社交媒体上等等等等。

这个研究，加上先前图像、音频、视频合成与生成的研究，能够大幅度降低制作虚假内容的成本。

以后你在网络上看到的东西，是真是假，可能就很难分辨了。

为了避免这种情况发生，OpenAI表示，不会发布经过训练的模型，为了能够让更多的研究人员进行试验，发布了一个更小的模型以及技术论文。

这个“防止恶意应用，不开放完整模型”的决定也引来了不少质疑。

其中最激烈的，来自英伟达研究负责人Anima Anandkumar。

她说：“Malicious BS”。大致相当于中文的“恶意个P”。

这位Anima小姐姐，曾经逼得顶会NIPS改了名，正面硬刚Yann LeCun，最近在呼吁学术会议强制投稿者公开源代码。

逆天的语言AI模型来了！编故事以假乱真，问答翻译写摘要都行

不愿开放完整模型的OpenAI，被Anima斥责“为了站道德高地本末倒置”，站在了open的对立面，传播恐惧、误导媒体。

你怎么看?

无论观点如何，如果你对这项研究感兴趣，请先收好传送门：

模型代码：

https://github.com/openai/gpt-2

技术论文：

Language Models are Unsupervised Multitask Learners

这项研究的作者分别是Alec Radford、Jeffrey Wu、Rewon Child、David Luan、Dario Amodei、Ilya Sutskever。

逆天的语言AI模型来了！编故事以假乱真，问答翻译写摘要都行

其中Ilya Sutskever是OpenAI的首席科学家，是AlexNet、seq2seq、AlphaGo、TensorFlow等人工智能领域重要成果的共同发明者。

论文地址：https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

最后，附上AI撰写的关于独角兽的全文：

(人类给的开头：)

科学家们有个令人震惊的发现，在安第斯山脉一个偏远且没被开发过的山谷里，生活着一群独角兽。更加让人讶异的是，这些独角兽说着完美的英文。

(AI编的下文：)

这些生物长着独特的角，科学家们就以此为它们命名，叫Ovid’s Unicorn。长着四只角的银白色生物，在这之前并不为科学界所知。

现在，过了近两个世纪，这个奇异的现象到底是怎么发现的，谜底终于解开了。

来自拉巴斯大学的进化生物学教授Jorge Pérez和他的几个小伙伴，在探索安第斯山脉的时候发现了一个小山谷，没有其他动物也没有人类。

Pérez注意到，这山谷看上去曾是个喷泉的所在，旁边是两座石峰，上面有银白的雪。

然后，Pérez他们就深入探寻这个山谷。“我们爬上其中一座山峰的时候，，下面的水很蓝，上面还有一些结晶。”Pérez说。

发现独角兽种群的时候，Pérez和他的小伙伴都惊呆了。都不用靠近，从高空就可以望见这些生物——看上去离得很近，就快摸到它们的角了。

在查看这些奇怪生物的时候，科学家们发现它们讲着普通的英文。Pérez说：“比如说，我们注意到，它们有一种共同‘语言’，有点接近方言。”

Pérez认为，这些独角兽起源于阿根廷。在那里，人们相信这些动物是一个消失种族的后裔，在人类到达之前，这个种族就生活在那里。

虽然，这些生物的起源还不清楚，但有些人相信，它们是一个人类和一个独角兽相交而诞生的，那时人类文明还不存在。Pérez说：“在南美洲，这样的事情是很常见的。”

（编辑：开发网_开封站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/5

首页

尾页

什么是网站TTFB？优化	如何合理应用URL准则
CDN缓存是啥意思解析	为何要买云服务器？云