大语言模型涌现无法预测的能力

分享到社交媒体

去年，研究人员对不同规模的大语言模型进行了测试，其中之一是一个女孩和三条鱼的绘文字，询问它们描述了哪部电影。最小的模型产生了超现实的答案：“The movie is a movie about a man who is a man who is a man”。中等复杂度的模型猜测是《Emoji大电影》，最复杂的模型则正确地猜出了《海底总动员（Finding Nemo）》。计算机科学家对大语言模型的表现非常惊讶。

几十年来，人们一直在研究大语言模型，五年前最强大的模型基于递归神经网络，本质上是根据提供的文本字符串猜测下一个单词是什么。2017年，Google Brain的研究人员提出了一种新型架构，称为Transformer。相比递归网络，Transformer可以同时处理所有单词，并行处理大块文本。通过增加模型的参数，Transformer可以快速扩展语言模型的复杂度。2020年，OpenAI的研究人员发现随着参数规模的增加，语言模型的能力和准确度得到了改进。

然而，大语言模型也带来了一些意想不到的问题。研究人员发现，大语言模型产生了数百种“新”能力，这种行为被称为涌现。现在，研究人员正在努力识别新的涌现能力，并找出背后的原因。这可以揭示出AI和机器学习深层问题的答案，如复杂模型是否真的在做新的事情，还是只是极端擅长统计。此外，它还可以帮助研究人员利用潜在的好处并减少涌现风险。

分享到社交媒体

AI星球旅行指南：你的人工智能导航

You might also like

OpenAI 发布月费 20 美元的 ChatGPT Plus

新加坡支持学校使用 ChatGPT 但要求谨慎

人口负增长的历史性时刻到来，一个国家应该如何应对？