如果人工智能保持从其他人工智能学习它们将变得无用

标签:
it杂谈 |
如果人工智能保持从其他人工智能学习它们将变得无用
研究人员警告说,如果诸如ChatGPT语言模型被用其他人工智能的输出训练,它们将变得严重偏见,过于简单并与现实脱节。
新科学家
By
16 June 2023

聊天机器人用人类语言的统计模型来预测接下来应该来什么单词。Laurence Dutton/Getty Images
用来自其他人工智能的文本和图像训练的人工智能,这让它们自己已经被训练已经在人工智能输出上,最终可能变得功能上无用的。
诸如ChatGPT一样的人工智能被称为大型语言模型(LLM),用来自互联网的大量人类书写文本存储库来创建一个人类语言的统计模型,以便它们能预测哪些单词最有可能在下一个句子中来。自从它们可用以来,互联网上已经变得充斥人工智能生成的文本,但这个对未来人工智能的影响是不清楚的。
现在,牛津大学的伊利亚舒麦洛夫和他的同事已经发现,用其他人工智能的输出训练的人工智能模型变得严重偏颇的,过于简单并与现实脱节,一个他们叫模型崩溃的问题。
此失败发生是因为人工智能模型统计上代表文本的样子。一个人工智能多次看到一个短语或句子将可能在一个输出中来重复该短语,并且更不可能来产生某些它已经罕见的东西。当新模型随后被在来自其他人工智能的文本上训练时,它们只看到原始人工智能的可能输出的一小部分。这个子集不太可能来包含更罕见的输出,因此新的人工智能不会将它们因素进它自己的可能输出中。
该模型也没有告诉是否它看到的人工智能生成的文本对应现实,这可能引入甚至比当前模型更多的错误信息。
一个足够多样化训练数据的缺乏被模型本身中的效率不佳和它们被训练的方式调和,这并不总是完美的代表第一位中支撑的数据。舒迈洛夫和他的团队表明了这造成各种不同的人工智能模型的模型崩溃。
这个过程多快发生取决于在一个人工智能的训练数据中人工智能生成的内容的量,以及它用的什么模型类型,但所有暴露于人工智能数据的模型似乎出现最终崩溃。
舒迈洛夫说,绕过这个问题的唯一方法是来标记并排除人工智能生成的输出。但这是不可能来可靠地做的,除非你拥有一个在那里人类被知道来输入文本的界面,例如谷歌或OpenAI的“ChatGPT界面”,一个动态可能巩固大型科技公司已经显著的财务和计算优势。
马里兰大学的维奴萨达西万说,通过指示人工智能来从之前充斥网络的人工智能内容优先给出训练数据可以减轻一些错误。
苏黎世瑞士联邦理工学院的佛罗连特拉莫说,人类不用他们自己首先编辑不会将人工智能内容发布到互联网上也是可能的。
参考:arxiv