LLM(大型语言模型)是什么?
(2023-03-24 22:56:52)
1.作为新范式的基础模型
LLM是一类基础模型,它们可被视为2020年代人工智能的新范式。基础模型是大型深度学习模型,其参数总数在10的11次方量级上,并在不断增长。它们对丰富的数据进行了预训练,从而生成了一个基础模型,该模型可随后被应用到不同的场景中,通过一个所谓微调的过程。例如,LLM可被微调从而作为一个聊天机器(如ChatGPT)或作为一个系统可生成计算机代码(如Codex)。在2023年早期,尖端的LLM包括OpenAI的GPT-3.5,DeepMind的Chinchilla等。
基础模型的预训练采用大量的计算和数据,在一个所谓的自我监督学习的过程中,在这里,模型学习训练数据的内在结构,通过持续地预测隐藏的数据部分。例如,为了训练LLM,模型被输入文本的部分内容,而其中某些单词被隐藏了,其模型学习去预测这些丢失的单词是什么。该过程在维基百科、科学论文、书籍和其他来源的网络文章中万亿字节数据上执行。
为了预测训练数据的结构,通过损失最小化的方式,模型需要学习句法结构、词与词之间的关系,以及他们表示的概念,句子的内容,以及不同的单词在上下文中互动的模式,还有不同的句子之间的关联关系。例如,系统学习到“她喜欢猫和狗”代表动物爱好者,而“雨下得很大(像下猫狗一样)”形容降雨。在这个训练过程中,模型形成了不断的更高水平的对概念和它们之间关系的抽象表示能力——总之,它形成了内部世界模型。基于该内部世界模型,这个基础模型能被微调从而适用不同的应用场景。
2.规模和涌现能力
将基础模型和扩展之后的LLM区分于早期版本的深度学习模型的是,它们的规模使得形成了不断增长的强大的处理能力。2010年代的大多数深度学习模型,显示出强大的在特定应用方面的能力,如识别图像,但是在人类的广泛能力和特定人工智能系统的狭隘能力之间还有很大的功能差异。随着最新一代的LLM的出现,这种差异开始变得模糊起来,最新的LLM显示除了不断增长的、可广泛应用的强大能力。更具相当具有预测力的标度律,LLM的总体绩效会有很大改善,这个规律如实证规律——对于几代的机器学习模型都适用。标度律认为,LLM的拟合优度,用它们的对数损失来测度,根据训练计算的数量的指数率函数,会得到改进,也就是,用于训练模型的执行的计算量,以及参数数和训练数据的规模(Kaplan等,2020)。
在过去的十年里,从顶端到底部的深度学习模型的训练计算,平均每六个月就翻倍,这意味着每五年就有千倍的增长(Sevilla等,2022)。这个趋势也是在近年来LLM和其他基础模型能力的快速上升的后背的运作规律。按照某些指标,目前的LLM在复杂度上可以与人类大脑相抗衡,这使得我们可能不会感到惊讶——它们开始展现出某种怪异的相同的能力。
随着LLM的对数损失持续改进,新能力出现了,在离散的门限上。LLM的许多能力是涌现式的——在这样的意义上——它们不是出现在较小的模型中,而是一旦当某一特定的门限跨越之后,就突然出现了,然后迅速提升,并最终达到成熟。例如,Wei等(2022)指出,一旦训练计算的某一门限被跨越之后,LLM几乎可预见地可形成执行算数计算、解读词语或者执行问答的能力。其他重要的能力,从语言模型中涌现出来的,包括编程、翻译和押韵等。事实上,对于研究员而言大多数有用的能力——我们将在下文讲到的——都是在近些年才涌现出来的。关于这些涌现出来的许多能力,一个有趣的现象就是,它们通常惊艳到了系统的创造者——冒着拟人化的危险,可能就像优秀的嘘声惊讶到了他们的老师。许多涌现出来的能力是偶然地被发现的,在系统被发布之后。这表明它们可能实际上有一些重要的能力被悬置了,也就是,许多LLM实际上展现了更多的为人所知的能力。