AI 赋予文字无限力量：“由文本生成一切”的一年

2023.02.24

作者：Daniel Bashir

TL;DR：得益于最新的技术进展，人工智能模型现在能将文本转化为其他形态。这篇文章回顾了 AIGC 的发展历程及现状，并预测未来的发展。

“一种基于文本指令创建绘图的算法” - MidJourney

你现在看到的是文字——文字作为一种媒介，让我向你传达一连串的想法。自从人类用文字记录事物，而不再依靠记忆，我们就一直在使用一连串符号来传递信息，你可以把所有这些称为“文本”。

今时今日，以及在过去的几个世纪里，我们已经将我们对世界的知识、我们的想法、我们的幻想转化为文字。也就是说，人类的大部分知识现在都以文字的形式存在，我们也在用其他方式交流，比如肢体语言、图像、声音等。但文字是我们用于记录交流、思想和观念的最丰富的媒介，因为使用起来非常便利。

当GPT-3被输入互联网信息时，它消化了我们对周围世界的观察、我们的无聊世事、我们彼此之间疯狂的争论……，学会了在一连串符号化的人类混乱表达中预测下面的内容。

在学习我们连词成句进行交流的过程中，一个大型的语言模型会模仿（或“鹦鹉学舌”）我们如何开玩笑、安慰和发布命令。GPT-3开启了一场“革命”，在 “从文本到文本”方面表现得非常好：输入一些任务例子（如完成一个比喻）或对话开头，这个生成模型（通常）就可以学习任务或继续对话。

我们在文字的使用方式中，几乎存在一定的“普遍性”，而我们的技术只是在最近才达到这样的程度：人工智能系统可以加以整合，发掘我们使用语言的方式，从而描述其他形态。实现强大文本生成能力的技术，也能用以实现文本条件下的多形态生成。“从文本到文本”变成了“从文本到X”。

在“从文本到文本”中，你可以要求模型对一只狗进行描述。在“从文本到图像”中，你可以将该描述转化为其对应的视觉效果。文本-图像模型提供了一种现有图像生成系统所不具备的新能力。现有的模型，例如GANs，经过训练，可以在给定的噪声输入下（以及用于类别条件图像生成的类别信息）生成真实的图像。但这些模型的可控水平不高，难以达到 DALL-E 2、Imagen 等模型的高度：用户可以要求生成一只戴着太阳镜的袋鼠，站在特定的建筑物前，拿着带有特定短语的牌子。你的愿望就是算法的命令。

谷歌 Parti 生成的图片

在“文本到图像”得以有效实现之后，更多的应用随之而来：“文本到视频”是下一个热点。“文本到音频”技术已经存在。“文本到动图”和“文本到3D”技术说明了文字可以转化为其他事物。

这篇文章的主题是“从文本到一切”的一年。最近的技术发展，使人们能够以更有效的方式快速地将文本转换为其他形态。这些发展令人兴奋的，并有望在未来几年内实现大量的应用和产品。但是我们也应该记住，“文本的世界”是有局限性的，只是一些空洞的思考，描述世界却不与其发生实际互动。我将讨论时至今日的技术进步，也会思考如果文本信息的“呈现”仅仅停留在文本领域，“从文本到一切”会有怎样的局限性。

多形态终于成为现实

从技术上说，GPT-3揭开了一切的序幕。这已经被提到很多次了，所以我就简单说一下：OpenAI训练了基于transformer 架构的大语言模型。这个模型比之前的GPT-2大得多，训练的数据也多得多（1750亿个参数vs 15亿个参数；40TB的数据vs 40GB），OpenAI当时认为发布这个模型太危险了。它可以做一些事情，比如编写不那么复杂的JavaScript代码。有些人会觉得很酷，有些人会觉得一点也不酷，有些人会觉得一般般。创业公司都建立在新的最大的模型上，新闻和学术文章都在赞扬和批评新模型，美国以外的国家也在发展自己的大语言模型参与竞争。

2021年1月，OpenAI 推出了一个名为CLIP的新人工智能模型，它拥有与GPT-3类似的zero-shot能力。CLIP向连接文本和其他形态迈出了一步，它提出了一种简单、优雅的方法来训练图像和文本模型，当有人进行查询时，整个系统可以在可能的标题选择中，把图像与相应的标题相匹配。

AI 赋予文字无限力量：“由文本生成一切”的一年

加⼊OKEx全球社群

相关推荐