加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

AI终结图灵测试让人做何感想?

(2025-11-05 09:00:21)
分类: 心理学进展趣编

AI终结图灵测试让人做何感想?

 

人工智能大语言模型终结了图灵测试:我们真的需要人类的替代品吗?

伊丽莎白·吉布尼/

周伊敏、杨靖渊、叶子瑶、孙博宇、曹明子杰、雷雳译

 

如今,最先进的人工智能模型轻松通过了图灵测试(图灵测试是一项著名的思想实验,旨在检验计算机能否通过文本交互伪装成人类)。

一些人认为,升级版的测试是迈向通用人工智能进步的必要基准。通用人工智能是一个含义模糊的术语,许多科技公司用它来表示一种足智多谋、能媲美人类任何认知能力的人工智能系统。但在102日于伦敦皇家学会举办的一场活动中,多位研究人员表示,图灵测试应当被彻底废除,开发者应将重点转向评估人工智能的安全性,并开发对公众有益的特定能力。

 

超越图灵

英国剑桥大学研究者萨拉·迪伦指出,图灵那饶有趣味的思想实验常被用作衡量机器智能的标准,但它从未被设计成一项严肃或实用的测试。

如今一些最强大的人工智能系统是大语言模型的改进版本,这些模型通过从互联网数据中学习并建立关联来预测文本。今年3月,研究人员用一个图灵测试的变体对四个聊天机器人进行了测试,发现最先进的模型通过了测试。

然而,活动中的几位研究人员指出,聊天机器人能够逼真地模仿人类语言,并不意味着它们具备理解能力。纽约大学的神经科学家马库斯说,尽管大型语言模型的回复可能极具人性化,但“当你让它们跳出常规问题时,它们就会显得力不从心”。例如,一些模型无法正确标注大象身体的部位,或者画时钟时只能把指针画在“10点和2点”的位置。因此,如果面对了解它们弱点的科学家,这些模型仍可能无法通过图灵测试。

尽管如此,基于大语言模型的系统在多个领域,尤其是推理任务方面的快速进步,引发了人们关于机器是否即将在人类认知测试中达到人类水平的猜测。为了追踪人工智能不断增长的能力,并捕捉非语言技能,研究人员一直在努力构建更具挑战性的测试。其中最新的一种是第二版抽象与推理语料库,用于评估人工智能有效适应新问题的能力。这类测试通常被视为迈向通用智能的里程碑,但研究者们并未就通用人工智能达成任何统一的衡量标准。

在伦敦皇家学会活动上,马库斯向记者表示,更合适的评估方式或许是一场包含约十几项测试的“图灵奥运会”,其中包括观看电影并理解情节,以及按照说明书组装家具等。然而,其他研究人员质疑开发者是否真的应该追求通用人工智能。英国布莱顿萨塞克斯大学的神经科学家阿尼尔·塞思指出,这类测试忽视了“具身智能”的重要性,即与物理身体的连接。他认为,这些能力不只是“额外的附加功能”,实际上是人类开展各项活动的核心要素。

 

关注功能而非智能

英国爱丁堡大学的人工智能伦理学家香农·瓦勒称,通用人工智能是一个“过时的科学概念”,它“并未指向任何真实存在的实体或特质”。她指出,智能的定义因文化、环境、时代乃至物种而异。“我认为我们不应再问‘这台机器有智能吗?’,而应该问‘这台机器究竟能做什么?’”

她表示,将机器的能力拆解为不同的具体功能(例如,仅聚焦于语言能力,而非将语言作为认知能力的指标)有助于避免将人类的特质(如理解或共情)错误地赋予人工智能。“我们若能将‘智能’拆解为间接且模糊指向的多种不同能力,会取得更大的进步。”

瓦勒还指出,通用人工智能概念的流行实际上会让科技公司忽视这项技术可能带来的危害,例如让人类技能退化、产生虚假信息,以及放大训练数据中已有的偏见。她认为,模型应当以安全指标而非智能基准进行竞争,“同时还要考量工具被滥用的难易程度,以及在现实场景中做出意外或不良行为的可能性”。

 

资料来源:

Gibney E. (2025). AI language models killed the Turing test: Do we even need a replacement?. Nature. Advance online publication. https://doi.org/10.1038/d41586-025-03386-w

该文翻译发布得到了原文作者授权

 

 

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有