加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

投资手记260:空间智能(2025-11-22)

(2025-11-22 19:03:39)
       当下行业领先的大模型,虽然在知识、写作、推理、编程等方面展示了突出的性能,但是普遍存在一个重要的缺陷,就是对空间结构的理解和推理存在很严重的短板,而这恰恰是具身智能体与世界交互所需要的关键基础能力。

       要让AI真正"看懂"三维世界,空间智能一直是关键的试金石商汤围绕空间智能进行了深入创新探索,找到了提升空间智能的系统性训练方法,打造了日日新·空间智能大模型系列 SenseNova-SI 并正式开源
       
       SenseNova-SI的性能飞跃,源于商汤从训练数据到方法上的系统性方案。依托商汤提出的空间能力分类体系和过往多样化的数据的积累,团队采用系统化的方法扩充空间理解数据的规模,首次在空间智能领域验证了“尺度效应”,即通过高质量、大规模数据训练,可显著提升模型的空间认知能力。       商汤提出的训练范式具备通用性,能够针对不同架构的基模型(如InternVL等)进行有效增强,使其在空间智能六大核心维度上——包括空间测量、空间重构、空间关系、视角转换、空间形变与空间推理——实现一致性的能力提升。

       此次发布的空间智能大模型SenseNova-SI,与“开悟”世界模型相辅相成,将更好地解决多模态模型从数字空间走向物理世界的基础挑战,并在未来进一步推动AI在自动驾驶、机器人等场景的应用。标志着AI在三维世界理解能力上迈出关键一步,也为下一代通用人工智能技术融入物理世界打下坚实基础。


       空间智能是推动AI实现从“看懂世界”到“影响世界”的关键进阶能力。
       商汤团队联合大晓机器人团队、南洋理工大学等权威学术机构发布论文《与相机共思》,其中提出名为“Puffin”的AI模型,通过“将相机理解为语言”并引入“与相机共思”的理念,消除了视觉-语言-“相机”模态间的鸿沟,从而使AI能够更全面、更交互地进行空间推理。
       商汤王飞表示:“‘Puffin’提供了能够从任意视角和方向理解并创造场景,并能灵活拓展至复杂的跨视角理解与生成任务的能力。上述能力将应用于我们正打造的具身世界模型,进一步提升具身智能空间智能性能。”
       具体来看,“Puffin”模型首次让“理解”和“生成”联动,通过统一框架让AI能“先算准相机角度(理解),再按这个角度生成新场景(生成)”,而且两个任务共享一套“空间逻辑”,不会出现算的角度和画的场景对不上的问题。
       通过“Puffin”模型可以有效提升世界模型对物理世界的时空结构进行深度感知、推理与预测,从而提升具身智能和自动驾驶的全局协同、感知精度和场景训练效率‌。
      “Puffin”打造的不只是一个工具型 AI,而是让AI像人一样用相机的视角思考,实现“与相机共思”能力。这种能力让AI从被动处理数据变成主动进行空间推理,提升具身智能空间智能能力;同时,可以使世界模型对物理世界的时空结构进行深度感知、推理与预测,从而提升具身智能和自动驾驶的全局协同、感知精度和场景训练效率‌。



       

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有