大语言模型涌现无法预测的能力

分享到社交媒体

去年,研究人员进行了一次测试,输入了不同的提示,以测试不同规模的大型语言模型的能力。其中一个提示是一个女孩和三条鱼的绘文字,询问它们描述了哪部电影。最小的模型产生了超现实的答案:“The movie is a movie about a man who is a man who is a man”。中等复杂度的模型猜测是《Emoji大电影》,而最复杂的模型则正确地猜出是《海底总动员(Finding Nemo)》。计算机科学家对大语言模型的表现非常吃惊。大语言模型已经研究了几十年,五年前最强大的模型是基于递归神经网络,本质上是根据提供的文本字符串猜测下一个单词是什么,所谓递归是从输出中不断学习,利用反馈去改进性能。2017 年 Google Brain 的研究人员提出了被称为 transformer 的新型架构。递归网络是逐字分析句子,transformer 则是同时处理所有单词,它能并行处理大块文本。Transformers 能通过增加模型的参数快速扩展语言模型的复杂度。2020 年 OpenAI 的研究人员发现随着参数规模的增加语言模型改进了其能力和准确度。

但是,大型语言模型也带来了一些始料未及的问题。研究人员发现,大型语言模型产生了数百种“新”能力,这种行为被称为涌现。研究人员现在正在努力识别新的涌现能力,并找出背后的原因——本质上是试图预测不可预测性。了解涌现可以揭示AI和一般机器学习深层问题的答案,例如复杂模型是否真的在做新的事情,还是极其擅长统计。它还可以帮助研究人员利用潜在的优势并减少涌现风险。


https://www.quantamagazine.org/the-unpredictable-abilities-emerging-from-large-ai-models-20230316/

 

分享到社交媒体