大语言模型涌现无法预测的能力

分享到社交媒体

去年,研究人员对不同规模的大语言模型进行了测试,其中之一是一个女孩和三条鱼的绘文字,询问它们描述了哪部电影。最小的模型产生了超现实的答案:“The movie is a movie about a man who is a man who is a man”。中等复杂度的模型猜测是《Emoji大电影》,最复杂的模型则正确地猜出了《海底总动员(Finding Nemo)》。计算机科学家对大语言模型的表现非常惊讶。

几十年来,人们一直在研究大语言模型,五年前最强大的模型基于递归神经网络,本质上是根据提供的文本字符串猜测下一个单词是什么。2017年,Google Brain的研究人员提出了一种新型架构,称为Transformer。相比递归网络,Transformer可以同时处理所有单词,并行处理大块文本。通过增加模型的参数,Transformer可以快速扩展语言模型的复杂度。2020年,OpenAI的研究人员发现随着参数规模的增加,语言模型的能力和准确度得到了改进。

然而,大语言模型也带来了一些意想不到的问题。研究人员发现,大语言模型产生了数百种“新”能力,这种行为被称为涌现。现在,研究人员正在努力识别新的涌现能力,并找出背后的原因。这可以揭示出AI和机器学习深层问题的答案,如复杂模型是否真的在做新的事情,还是只是极端擅长统计。此外,它还可以帮助研究人员利用潜在的好处并减少涌现风险。

分享到社交媒体