芙兰考斯乔勒特说对通用人工智能大语言模型是死胡同

标签:
it杂谈 |
芙兰考斯乔勒特说对通用人工智能大语言模型是死胡同
他的100万美元的抽象和推理语料库奖竞赛被设计来把我们放在正确的道路走。
THE
FUTURE
关键要点
通用人工智能(AGI)可能改变这个世界,但没有人似乎知道我们多近来建立它。
今天的生成式人工智能在基准测试中得分很高,但这些基准测试能被通过记忆化解决并不一定的发通用智能信号。
为加速人工智能中的进步,芙兰考斯乔勒特推出了ARC 奖,一项来看哪些人工智能在一组抽象和推理任务上得分最高的竞赛。
本文是自由思考(Freethink)的来改变世界技术的每周指南《未来探索》的一个道具。你能在这里订阅(subscribing here)让这样的故事每周六早上都会直接发送到你的收件箱。
现在是2030年,通用人工智能(AGI)最终在这里。在未来的几年里,我们将用这项强大的技术来治愈疾病、加速发现、减少贫困等等。以某种方式,我们的到通用人工智能的旅程能被追溯回到2024年一个100万美元挑战了人工智能的现状的竞赛。
通用人工智能
通用人工智能(AGI)——有人类水平智力的软件——可能改变这个世界,但似乎没有人知道我们处在多近来建立它。专家的预测范围从2029年到2300年到永远。一些人坚持通用人工智能已经在这里。
为找出为什么如此难来预测通用人工智能的到来,让我们观察人工智能的历史、我们目前衡量机器智力的方式以及对这个可能帮助指导我们改变世界的软件的100万美元竞争。
我们一直在哪里

我们要去哪里(也许)
因此,我们将如何知道通用人工智能何时到达呢?
基准测试是一种来跟踪人工智能进步的有用方法,为仅为一项被设计的任务选择基准测试人工智能通常是相当容易的——例如,如果你正在训练一个人工智能超声心动图识别心脏问题,你的基准可能是与医生比较它的准确性。
但据定义通用人工智能被假定拥有那种人类有的一般智力。你如何对此基准测试?
几十年来,许多人考虑了图灵测试对通用人工智能是一个坚实的基准(即便阿兰·图灵不完全的打算它如何被用)。如果一个人工智能可以信服一个人类评估者它是人类,它功能上展示人类水平的智力,思路是这样的。
但当一个模仿一个青少年的聊天机器人在2014年“通过了”图灵测试后表现的像一个青少年一样——转移问题、开玩笑并基本上那种迟钝的——关于它没有什么感觉了特别智力的,更不用说智力的到足来改变这个世界。.

尤金古斯特曼(Eugene Goostman)的化身,被信誉在2014年通过了图灵测试的人工智能。(Credit: Vladimir Veselov)
从那时起,大型语言模型(LLM)中的突破——在宏大的文本数据集上训练的人工智能来预测人类一样的反应——已经导致了能容易欺骗人成认为它们是人类的聊天机器人,但这些人工智能似乎也不太智力的,尤其是因为它们说的往往是假的。
由于图灵测试被认为破碎了、“过时的”和“远超过老旧的”,人工智能开发人员需要新的通用人工智能基准,因此他们开始让他们的模型参加我们有的为人的最严格的测试,如律师资格考试和MCAT以及MMLU,一个在2020年中创建的基准,专门来评估语言模型的在一系列科目上的知识。
现在,开发人员定期的报告他们最新的人工智能如何相对人类考生、以前的人工智能模型和他们的人工智能竞争对手表现的,并将他们的结果发表在诸如标题为“通用人工智能的火花”的论文中

Credit: OpenAI
这些基准确实给我们一种比图灵测试更客观的来评估和比较人工智能的方法,但尽管它们看起来的样子,它们也不一定显示朝向通用人工智能的进步。
大型语言模型被训练在大量文本的库上,大多从互联网拉出,因此很可能许多被用来评估一个模型的完全相同的问题被包含在它的训练数据中——充其量使称偏向一边,最糟糕允许它来简单的重复答案而不是执行任何种的人类一样的推理。
而且因为人工智能开发人员通常不公布他们训练数据的细节,那些公司以外的人——那些试图为(可能)即将到来的大型语言模型做准备的人——不真的确实知道是否这个被称为“数据污染”的问题正在影响测试结果。
“记忆化是一个有用的,但智力是某些另外的东西” 。François Chollet
不过,确实似乎如此。在测试中,研究人员已经发现靠这些测试基准一个模型的表现当它被用稍微重用词测试问题挑战或完全已经被它的训练数据截止日期后创建时能急剧的下降。
软件工程师兼人工智能研究员芙兰考斯乔勒特(François Chollet)告诉自由思考网站,“几乎所有当前的人工智能基准测试都能被纯粹的经由记忆化解决。你能简单地观察在基准测试中是哪种问题,然后确保这些问题或非常相似的问题被特征在你的模型训练的数据中” 。
他补充道,“记忆化是有用的,但智力是某些另外的东西。用让·皮亚杰的话,智力是当你不知道该做什么时你用的。它是面临新环境中你如何学习、你如何适应和即兴发挥、你如何捡起新技能” 。
“它被设计来抵抗记忆化。到目前为止,它已经经受住了时间的考验” 。François Chollet
2019年,乔勒特发表了一篇论文,他在论文中描述了一个欺骗人的简单基准评估这种智能的人工智能:抽象和推理语料库(ARC)。
乔勒特说,“这是一个技能习得效率的测试,其中每项任务都被打算对考生是新奇的,它被设计对记忆化是抵抗的。到目前为止,它已经经受住了时间的考验” 。
抽象和推理语料库类似于在1938年发明的人类智商测试,叫拉文的渐进矩阵(Raven's Progressive Matrices)。每个问题特征成对的网格,范围大小从1×1到30×30不等。每对都有一个输入网格和一个输出网格,网格中的单元格填充多达10种不同的颜色。
人工智能的工作是基于由一两个例子建立的模式来预测对一个给定输入输出应该看起来是什么样子。

抽象和推理语料库问题的一个例子。(Credit: ARC Prize)
自他的发表论文以来,Chollet已经举办了几次抽象和推理语料库竞赛,涉及来自65个国家的数百名人工智能开发人员。最初,他们的最好人工智能可以解决20%的抽象和推理语料库任务。到2024年6月,这一比例已增至34%,仍远低于大多数人类能解决的84%。
为加速人工智能推理中的进展,乔勒特于6月与工作流自动化公司扎皮尔(Zapier)的联合创始人麦克奴仆(Mike Knoop)合作推出了抽象和推理语料库奖,一项来看哪些人工智能能在一组抽象和推理语料库任务上得分最高的竞赛,最好的系统有超过100万美元(和很多声望)可供争夺。
比赛的公共培训和评估集,每个集由400个抽象和推理语料库任务组成,GitHub上的开发人员是可以利用的。参赛者必须在2024年11月10日前提交他们的代码来比赛。
然后,人工智能将被在抽象和推理语料库奖的100个离线任务的私人评估集上测试——这种方法确保测试问题不会被泄露,人工智能不会在评估前有一个看到它们的机会。
获奖者将于2024年12月3日公布,得分最高的五个人工智能各自获得5000至25000美元(在撰写本文时一个团队已经设法了43%)。为赢得50万美元的大奖,一个参赛者的人工智能必须解决85%的任务。如果没有人获胜,这笔奖金将转入2025年的比赛。
获得任何奖项是可行的,开发人员必须愿意开源他们的代码。
按照竞赛网站,“抽象和推理语料库奖的目的是重新定向更多的人工智能研究朝向可能导致通用人工智能(AGI)的架构聚焦,并确保值得注意的突破不会在大型企业人工智能实验室中仍然是一个商业秘密”。
“OpenAI基本上倒退通用人工智能进展5到10年” 。François Chollet
这个新的方向可能远离大语言模型和类似的生成人工智能。他们在2023年获得了近一半的人工智能资金,但按照乔勒特,不太可能导致通用人工智能,而且正积极的减缓朝向它的进步。
他告诉Dwarkesh播客,“OpenAI基本上倒退通用人工智能进步5到10年,他们造成了前沿研究发表的完全关闭,现在大语言模型已经基本上把房间里的氧气吸光了——每个人都正在做大语言模型” 。
他在他的怀疑大语言模型正让我们不更接近通用人工智能中不是唯一的。
元宇宙公司的首席人工智能科学家勒存(Yann LeCun)告诉Next Web,“在朝向人类智能的道路上,一个大语言模型基本上是一个出口、一个分心、一条死胡同”,OpenAI自己的首席执行官奥特曼(Sam Altman)已经说,他并不认为扩大大语言模型将导致通用人工智能。
至于什么种的人工智能最有可能来导致通用人工智能,现在说还为时过早,但乔勒特已经分享了迄今为止在抽象和推理语料库已经表现最佳的方法的细节,包括主动推理、DSL程序合成和离散程序搜索。他还相信深度学习模型可能是值得探索的,并鼓励参与者尝试新的方法。
最终,如果他和其他人是正确的,大语言模型是通往通用人工智能道路上的一个死胡同,一种能实际上识别人工智能中的通用智能“火花”的新测试可能是宏大的有价值的,帮助行业将重点转移到研究将尽快导致通用人工智能的模型上,以及随之而来的所有改变世界的益处。
本文最初由我们的姊妹网站自由思考网站(Freethink)发表。
https://bigthink.com/the-future/arc-prize-agi/