衡量人工智能能力的新标准_刘群鸣

个人资料

微博

正文字体大小：大中小

衡量人工智能能力的新标准

(2025-05-18 12:00:00)

分类：军事与科技

科学家设定衡量人工智能能力新标准

2025-05-01

据美国趣味科学网站4月27日报道，人工智能(AI)在执行短时长任务时超越人类，但真正的智慧系统，耗时较长的任务才是真正的挑战。

科学家设计出一种衡量AI系统能力的方法，考察AI在完成复杂任务时的表现。

这一成果参考人类完成相关任务的时长，来衡量AI系统的能力。

对于人类需要不到4分钟就能完成的任务，AI模型的成功率近100%；对于人类需要4个小时才能完成的任务，AI模型的成功率仅10%。

在过去6年里，每7个月，通用型AI以50%的可靠度完成任务的时长就能增加一倍。

AI的“注意力持续时间”正在迅速延长。到2032年，AI就可以自动完成人类软件开发一个月的工作量。

建立现实世界的新标尺，以便“对AI给出有意义的解读”。

这一潜在的新标尺便于我们更好地理解AI系统的实际智慧和能力。

这一标尺本身不太可能改变AI的发展进程，但可跟踪AI系统发展速度。

基于人类时长来评估AI，可衡量AI的替代性指标。

首先，没有任何单一指标可以体现我们对‘智慧’的理解

其次，完成一项耗时较长的任务而不出错的可能性微乎其微

第三，这种方法可以衡量AI完成哪些复杂的人类问题。

可以认为，能够处理各种任务的通用型智能体将很快出现。

到2026年，我们将看到AI可以一整天或者一个星期都在处理各种任务。

对企业而言，这会促成能够承担大量专业工作的AI系统。便于人类专注于更具创造性、战略性和人际交往性的任务。

对消费者而言，AI将从简单的助手演变为可靠的个人助理，只需要最低程度的监督。

AI处理各类长时长任务的能力，将对社会利用AI的方式产生重大影响。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report