加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

大型语言模型对现实世界不适用,科学家警告甚至稍微的变化造成它们的世界模型坍塌

(2024-11-21 15:50:33)
标签:

it

杂谈

大型语言模型对现实世界不适用,科学家警告甚至稍微的变化造成它们的世界模型坍塌

By Roland Moore-Colyer

 published 2 days ago

Artificial Intelligence

一项新的研究发现大型语言模型人工智能可能在表面上似乎灵巧的,但它们挣扎来实际上理解现实世界并准确建模它。

当您通过我们网站上的链接购买时我们可能会获得一个联盟佣金。这里是它如何工作的。 Here’s how it works.

大型语言模型对现实世界不适用,科学家警告甚至稍微的变化造成它们的世界模型坍塌
支撑大型语言模型的神经网络可能不是像它们似乎的灵巧的。 (Image credit: Yurchanka Siarhei/Shutterstock)

生成型人工智能(AI)系统可能能够产生一些令人大开眼界的结果,但新的研究表明它们没有一个世界和真实规则的连贯的理解。

arXiv预印本数据库上发表的一项新研究中,麻省理工学院、哈佛大学和康奈尔大学的科学家发现了大型语言模型(LLM)如GPT-4或人类世公司(Anthropic)的Claude 3 Opus不能产生准确代表现实世界的支撑模型。

例如当负有纽约市提供转弯驾驶方向任务时大型语言模型用一个准确率接近100%提交了它们。但用的支撑地图是充满了当科学家提取了它们时不存在的街道和路线的。.

研究人员发现了当意想不到的变化(如绕行和封闭街道)被添加到指令中时大型语言模型给出的方向的准确性陡峭下降。在某些案例中它造成完全的失败。因此它引发在一个现实世界局势中部署的人工智能系统就说在一辆无人驾驶汽车中当提交有动态环境或任务时可能误功能的担忧。

资深作者、经济学助理教授、麻省理工学院信息与决策系统实验室(LIDS)首席研究员拉姆巴禅(Ashesh Rambachan)在一份声明中说,“一个希望是因为大型语言模型能在语言中完成所有这些惊人的事情也许我们在科学的其他领域中也用这些相同的工具。但如果我们要用这些技术做出新的发现是否大型语言模型正在学习连贯的世界模型的问题是非常重要的”。

棘手的变形器

生成式人工智能的顶点是基于大型语言模型来从巨大量数据和参数并行学习的能力。为做到这个它们依靠变形器模型,变形器模型是处理数据和使大型语言模型的自学习方面成为可能的神经网络的支撑集合。这个过程创建一个所谓的“世界模型”,其中一个训练的大型语言模型然后能用来推断答案并为查询和任务生成输出。

世界模型的一个这样的理论用途将是从跨一座城市的出租车旅行获取数据来生成一个无需像当前导航工具要求的苦心绘制的每条路线的地图。但如果该地图是不准确的,对路线做出的偏差将造成基于人工智能的导航性能不佳或失败。

为评估变形器大型语言模型当到理解现实世界规则和环境时的准确性和一致性,研究人员用一类叫确定性有限自动化(DFAs)的问题测试了它们。这些是有一系列的如一个游戏规则或在一条前往一个目的地途中路线交叉口的状态问题。在这个案例中研究人员使用了从棋盘游戏《奥赛罗》和穿过纽约街头导航提取的确定性有限自动化。

为用确定性有限自动化测试变形器,研究人员观察了两个指标。第一个是“序列确定”,它评估是否一个变形器大型语言模型是否它看到了同一事物的两个不同状态已经形成了一个连贯的世界模型:两个奥赛罗板或一个有道路封闭的城市地图和另一个没有道路封闭的城市地图。第二个指标是“序列压缩”——一个(在这个案例中是一个用于来生成输出的有序数据点列表)它应该显示一个有一个连贯世界模型的大型语言模型能理解两个相同的状态(就说两个完全相同的奥赛罗板)有相同的可能要遵循的步骤的序列。

依赖大型语言模型是有风险的业务

在这些指标上测试了两类常见的大型语言模型。一个是被训练在从随机生成的序列生成的数据上,而另一个是被训练在遵循战略流程生成的数据上。

科学家发现了在随机数据上训练的变形器形成了一个更准确的世界模型。这可能是由于大型语言模型看到一个更宽的多的可能步骤。主要作者、哈佛大学研究员瓦法(Keyon Vafa)在一份声明中解释说,“在《奥赛罗》中,如果你看到两台随机电脑玩游戏而不是冠军玩家,理论上你会看到全套可能的动作甚至冠军玩家不会做出的糟糕的动作” 。通过看到更多可能的动作即便它们是糟糕的大型语言模型理论上更好准备来适应随机变化。

然而,尽管生成实在的奥赛罗动作和准确的方向,但只有一个变形器为奥赛罗生成了一个连贯的世界模型,而且没有一个类型生成了一个准确的纽约地图。当研究人员引入绕行等事情时由大型语言模型使用的所有导航模型都失败。

RELATED STORIES

'I'd never seen such an audacious attack on anonymity before': Clearview AI and the creepy tech that can identify you with a single picture

Scientists design new 'AGI benchmark' that indicates whether any future AI model could cause 'catastrophic harm'

Will language face a dystopian future? How 'Future of Language' author Philip Seargeant thinks AI will shape our communication

瓦法补充道, “我被只要我们增加一个绕行性能多迅速恶化惊讶。如果我们只关闭1%的可能街道,准确率立即的从近100%骤降到67%”。

研究人员说,这表明要用大型语言模型的不同方法来生成准确的世界模型。这些方法可能是的不是清楚的,但它确实突显变形器大型语言模型当面对动态环境时的脆弱性。

拉姆巴禅总结道,“我们往往看到这些模型确实做出令人印象深刻的事情,并认为它们一定关于世界有了解的。我希望我们能说服人们这是一个需要非常仔细思考的问题,我们不必依靠我们自己的直觉来回答它”

https://www.livescience.com/technology/artificial-intelligence/large-language-models-not-fit-for-real-world-use-scientists-warn-even-slight-changes-cause-their-world-models-to-collapse

 

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有