衡量人工智能能力的新标准
(2025-05-18 12:00:00)分类: 军事与科技 |
科学家设定衡量人工智能能力新标准
2025-05-01
据美国趣味科学网站4月27日报道,人工智能(AI)在执行短时长任务时超越人类,但真正的智慧系统,耗时较长的任务才是真正的挑战。
科学家设计出一种衡量AI系统能力的方法,考察AI在完成复杂任务时的表现。
这一成果参考人类完成相关任务的时长,来衡量AI系统的能力。
对于人类需要不到4分钟就能完成的任务,AI模型的成功率近100%;对于人类需要4个小时才能完成的任务,AI模型的成功率仅10%。
在过去6年里,每7个月,通用型AI以50%的可靠度完成任务的时长就能增加一倍。
AI的“注意力持续时间”正在迅速延长。到2032年,AI就可以自动完成人类软件开发一个月的工作量。
建立现实世界的新标尺,以便“对AI给出有意义的解读”。
这一潜在的新标尺便于我们更好地理解AI系统的实际智慧和能力。
这一标尺本身不太可能改变AI的发展进程,但可跟踪AI系统发展速度。
基于人类时长来评估AI,可衡量AI的替代性指标。
首先,没有任何单一指标可以体现我们对‘智慧’的理解
其次,完成一项耗时较长的任务而不出错的可能性微乎其微
第三,这种方法可以衡量AI完成哪些复杂的人类问题。
可以认为,能够处理各种任务的通用型智能体将很快出现。
到2026年,我们将看到AI可以一整天或者一个星期都在处理各种任务。
对企业而言,这会促成能够承担大量专业工作的AI系统。便于人类专注于更具创造性、战略性和人际交往性的任务。
对消费者而言,AI将从简单的助手演变为可靠的个人助理,只需要最低程度的监督。
AI处理各类长时长任务的能力,将对社会利用AI的方式产生重大影响。