当下行业领先的大模型,虽然在知识、写作、推理、编程等方面展示了突出的性能,但是普遍存在一个重要的缺陷,就是对空间结构的理解和推理存在很严重的短板,而这恰恰是具身智能体与世界交互所需要的关键基础能力。
要让AI真正"看懂"三维世界,空间智能一直是关键的试金石。商汤围绕空间智能进行了深入创新探索,找到了提升空间智能的系统性训练方法,打造了日日新·空间智能大模型系列
SenseNova-SI 并正式开源。
SenseNova-SI的性能飞跃,源于商汤从训练数据到方法上的系统性方案。依托商汤提出的空间能力分类体系和过往多样化的数据的积累,团队采用系统化的方法扩充空间理解数据的规模,首次在空间智能领域验证了“尺度效应”,即通过高质量、大规模数据训练,可显著提升模型的空间认知能力。
商汤提出的训练范式具备通用性,能够针对不同架构的基模型(如InternVL等)进行有效增强,使其在空间智能六大核心维度上——包括空间测量、空间重构、空间关系、视角转换、空间形变与空间推理——实现一致性的能力提升。
此次发布的空间智能大模型SenseNova-SI,与“开悟”世界模型相辅相成,将更好地解决多模态模型从数字空间走向物理世界的基础挑战,并在未来进一步推动AI在自动驾驶、机器人等场景的应用。标志着AI在三维世界理解能力上迈出关键一步,也为下一代通用人工智能技术融入物理世界打下坚实基础。
空间智能是推动AI实现从“看懂世界”到“影响世界”的关键进阶能力。
商汤团队联合大晓机器人团队、南洋理工大学等权威学术机构发布论文《与相机共思》,其中提出名为“Puffin”的AI模型,通过“将相机理解为语言”并引入“与相机共思”的理念,消除了视觉-语言-“相机”模态间的鸿沟,从而使AI能够更全面、更交互地进行空间推理。
商汤王飞表示:“‘Puffin’提供了能够从任意视角和方向理解并创造场景,并能灵活拓展至复杂的跨视角理解与生成任务的能力。上述能力将应用于我们正打造的具身世界模型,进一步提升具身智能空间智能性能。”
具体来看,“Puffin”模型首次让“理解”和“生成”联动,通过统一框架让AI能“先算准相机角度(理解),再按这个角度生成新场景(生成)”,而且两个任务共享一套“空间逻辑”,不会出现算的角度和画的场景对不上的问题。
通过“Puffin”模型可以有效提升世界模型对物理世界的时空结构进行深度感知、推理与预测,从而提升具身智能和自动驾驶的全局协同、感知精度和场景训练效率。
“Puffin”打造的不只是一个工具型
AI,而是让AI像人一样用相机的视角思考,实现“与相机共思”能力。这种能力让AI从被动处理数据变成主动进行空间推理,提升具身智能空间智能能力;同时,可以使世界模型对物理世界的时空结构进行深度感知、推理与预测,从而提升具身智能和自动驾驶的全局协同、感知精度和场景训练效率。
加载中,请稍候......