加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

北极星”基础教育大模型评测场二期评测榜单发布

(2025-10-31 08:26:20)
分类: 学府春秋(转帖)

北极星”基础教育大模型评测场二期评测榜单发布

文章来源:北京师范大学人工智能学院 编辑:项楠楠 | 2025-10-28 

 

北京师范大学智能技术与教育应用教育部工程研究中心联合北京教育科学研究院和北京智源人工智能研究院共建“北极星”基础教育大模型评测场(www.bnueval.com),“北极星”评测场具备紧扣新课标、聚焦教育应用、多学科多场景的特点,是首个基础教育领域的大模型评测场。


继首期榜单发布后,“北极星”评测场面向近期更新的大模型开展新一轮评估与分析。10月28日,“北极星”评测场发布并解读多款近期发布或升级的大模型在智能解题、智能答疑、智能出题、教案生成、口语练习、作文批改、学情分析7大场景下的评测结果。


本次评测结论与一期榜单基本保持一致,并增加以下详细分析:


1. 通用模型迭代较快,教育模型仍处积累阶段。相比于一期榜单,本期评测的模型中,多个主流模型系列已完成版本替换或迭代升级,如GPT、Qwen、GLM等均推出更先进模型,整体能力更强。相比之下,教育模型更新频次较低,部分首期模型因版本未变未再测评,展现出教育模型仍处技术积累阶段的特点。


2. 模型教育引导能力仍显不足,未能有效支撑核心素养导向教学。在出题、教案等任务中,模型在结构、逻辑等基础维度上表现稳定,但在素养导向、情境创设与启发引导等关键维度上得分普遍较低。这表明当前大模型虽具备完成教学任务的基础能力,但在内化新课标理念、服务素养导向教学等方面仍存在短板。


各场景深层洞察分析结果如下,完整榜单请点击查看《“北极星”基础教育大模型评测场二期评测榜单发布:7大场景,升级模型迎来再对决》


 

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有