技术概要
在本文中,我们关注一类重要的生成式人工智能,大语言模型(LLM)。在一个较高的复杂水平上,大语言模型是神经网络模型,旨在处理序列数据(Bubeck等,2023)。例如,一类LLM可以被训练,通过给它获得大量的文本语料库(如维基百科等)并用这些输入文本去学习语言在序列中的下个单词,给定之前产生的序列情况。这种统计上同时出现的单词的知识,使得它能够生成新的文本,该新文本在语法上是正确的,且语义上是有意义的。尽管这个名称意味着处理对象是人类语言,但是相同的技术可以被用来生成LLM,该LLM能搜集其他形式的序列数据,如蛋白质序列、声音、计算机代码,或者是象棋步骤。
生成式AI的近来的进步,是由四个因素驱动的:算力、模型结构的早期革新、用大量非标注的数据去预训练
的能力,以及训练技术的优化。模型表现很大程度上取决于规模,这包括用于训练的算力规模、模型参数的数量,以及数据集的规模(Kaplan等,2020)。预训练一个LLM需要成千上万的GPU,以及数星期到数月的训练时间。例如,一般估计表明,单个训练过程,对于GPT-3模型,具有1750亿个参数,基于3000亿个令牌的训练,可能花费500万美元,光是看计算成本。
就模型架构而言,现代LLM利用了两项早先的革新:位置编码和自注意力机制。位置编码保持了跟踪顺序,单词在一个给定的输入中按此顺序出现。这使得大体量的输入文本能够被分解为更小的部分,这样能够同时被处理而不会“遗忘”早先的输入内容(Vaswani等,2017)。同时,自注意力机制将重要性权重赋予每个单词,根据整个输入文本的上下文情况。那种陈旧的方法,也就是基于词频而赋予重要性的方法,可能会错误解释一个单词的真实语义的重要性。这些陈旧的方法也可能基于更小的窗口内的语义内容。相比之下,自注意力机制使得模型能够捕捉到输入文本中更长范围内的语义关系,即便当文本被分解且并行地处理(Vaswani等,2017)。
其次,LLM能够对大量的非标注数据进行预训练。例如,GPT是基于非标注的文本数据进行训练,使得它能够学习人类语言的模式,而无需明确地指导。因为非标注数据比标注数据要普遍得多,这使得LLM能够学习自然语言,基于更加大型的训练预料(Brown等,2020)。这样产生的模型能够被用于多个应用场景中,因为它的训练不是特定地针对某一类任务。
最后,通用目的LLM能够被进一步“微调”,从而生成匹配任何特定情境的优先需求的结果(Ouyang等,2022)。例如,一个LLM可能对一项给定的问题生成一些潜在的答案,但是某些答案可能实际上是不正确的或是有偏误的。为了训练这个模型,评判专家能够对这些结果进行排序,从而训练一个回馈函数,该函数将某些结果列为优先项。这样的精炼过程能够显著改善模型质量,但是使得通用目的模型能够更好地适应特定应用场景(Ouyang等,2022)。
总之,这些革新已经在模型绩效方面生成了有意义的改进。生成式预训练转换器(GPT)模型家族,已经吸引了大量的媒体关注,由于其快速的、正在扩展的能力。
加载中,请稍候......