复制成功

分享至

主页 > 比特币 >

是什么让ChatGPT变得如此聪明?仍然未知的大语言模型“能力涌现”现象

2023.04.11

来源:经纬创投

是什么让ChatGPT变得如此聪明?仍然未知的大语言模型“能力涌现”现象

图片来源:由无界 AI工具生成

3月29日,由图灵奖得主Yoshua Bengio、特斯拉CEO马斯克、纽约大学名誉教授Gary Marcus、UC伯克利教授Stuart Russell等1000多人,在一封叫停GPT-4后续AI大模型的公开信上签名。

这封公开信指出,最近人工智能陷入了一场失控的竞赛,模型的创造者们没有办法理解、预测或可靠地控制自己创造的大模型,人类社会对其可能造成的影响也没有做好准备。因此,公开信呼吁,所有AI实验室应立即暂停训练比GPT-4更强大的AI模型,为期至少6个月。

一石激起千层浪,从各个AI群里的讨论来看,赞同和反对的人都为数不少。我们一直在关注大语言模型,所以对这封公开信中提到的“但是没有人能理解、预测或可靠地控制这些大模型,甚至模型的创造者也不能”颇有感触,我想这个论断背后的核心点之一,就是人类至今没有搞清楚大语言模型中的“涌现”(Emergent)现象到底是怎么回事?AI为什么一下子变得如此智能?

过去几十年来,AI能够在局部领域打败人类,比如围棋,但在大多数时候,AI都没那么聪明,比如你问它“李白喜欢用什么手机?”,它要么卡壳要么给出离谱回答。这是因为让AI掌握常识,并且能够融会贯通地运用这些常识、形成推理能力非常难,一直以来这都是巨大的难题。

但这次以ChatGPT为代表的一众大语言模型,突然突破了这个门槛,变得非常“聪明”。当然背后的原因有很多,比如自监督学习、Fine-tuning策略等等,但有一个重要的底层变化——大语言模型的“涌现”(Emergent)现象,就是说一些业界从未想象到的能力,例如基础的社会知识、上下文学习(ICL)、推理(CoT)等等,在训练参数和数据量超过一定数值后,这些能力突然出现了,令AI一下子变得非常智能。

是什么让ChatGPT变得如此聪明?仍然未知的大语言模型“能力涌现”现象

随着语言模型规模的增长,新能力突然出现;图片来源:Google

“计算机科学之父”艾伦·麦席森·图灵早在1950年的论文Computing machinery and intelligence(计算机器与智能),就提出过一个观点:“学习机器有一个重要的特征,即它的老师往往对机器内部运行情况一无所知。”

70多年后,这则恐怖的论断成真了。大语言模型的设计者,比如OpenAI、DeepMind或是Meta,他们也不清楚这些新兴能力是如何产生的。微软在关于GPT-4的论文中提出了这个问题:它是如何推理、规划和创造内容的?为什么GPT-4本质上只是由简单的算法组件——梯度下降和大规模的Transformer架构,以及大量数据组合而成,但会表现出如此通用和灵活的智能?

微软对GPT-4的这个问题,还可以延伸出很多新问题:涌现是在多大参数规模出现的?哪些调整会影响能力的涌现?会涌现出哪些方向的能力?我们能控制它吗?……

搞清楚这些问题其实非常重要,短期的意义是,多大的模型规模是合适的?根据Chinchilla的论文,你可以对比在GPT-3的1750亿参数中,可能是有不少冗余的,如果更小的模型也可以出现能力涌现,这也许能削减训练成本。

长期的意义在于,AI目前还是在线上,但迟早会与物理世界连接,你可以想象一个基于GPT-10的ChatGPT与波士顿动力或者特斯拉的机器人结合吗?这或许在不远的将来就能实现。但如果涌现依然是一个黑箱,人类无法理解人工智能的进化方式或是方向,这在未来AI与物理世界连接后,恐怕会存在危险。

目前,学界与产业界有几十篇论文在研究涌现现象,或是研究模型规模与性能之间的联系,我们在本文中会引用一些核心观点,在文末的注释中会列出这些论文的简介与链接,供感兴趣的朋友们进一步研究。本篇文章会主要讨论这些问题:

● 大语言模型令人震惊的理解和推理能力

● 当我们加大模型规模时,出现的三种神奇表现

● 两种被证明具备“涌现”的典型能力:上下文学习(ICL)和思维链(CoT)

● 多大的模型规模会出现“涌现”?

● (附录:本文的论文注释与引用)

是什么让ChatGPT变得如此聪明?仍然未知的大语言模型“能力涌现”现象

大语言模型的涌现现象,在一定规模后迅速涌现出新能力;图片来源:Google、Stanford、DeepMind:Emergent Abilities of Large Language Models


1大语言模型令人震惊的理解和推理能力


最近几个月里,硅谷一夜之间出现了几百家应用层的创业公司,但在去年11月OpenAI发布ChatGPT之前,整个市场并没有意识到人工智能会在这个时刻,出现这样的爆发。

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier