投资手记260：空间智能（2025-11-22）_拉-玛西亚

http://blog.sina.com.cn/u/1063045060

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

投资手记260：空间智能（2025-11-22）

(2025-11-22 19:03:39)

当下行业领先的大模型，虽然在知识、写作、推理、编程等方面展示了突出的性能，但是普遍存在一个重要的缺陷，就是对空间结构的理解和推理存在很严重的短板，而这恰恰是具身智能体与世界交互所需要的关键基础能力。

要让AI真正"看懂"三维世界，空间智能一直是关键的试金石。商汤围绕空间智能进行了深入创新探索，找到了提升空间智能的系统性训练方法，打造了日日新·空间智能大模型系列 SenseNova-SI 并正式开源。

SenseNova-SI的性能飞跃，源于商汤从训练数据到方法上的系统性方案。依托商汤提出的空间能力分类体系和过往多样化的数据的积累，团队采用系统化的方法扩充空间理解数据的规模，首次在空间智能领域验证了“尺度效应”，即通过高质量、大规模数据训练，可显著提升模型的空间认知能力。商汤提出的训练范式具备通用性，能够针对不同架构的基模型（如InternVL等）进行有效增强，使其在空间智能六大核心维度上——包括空间测量、空间重构、空间关系、视角转换、空间形变与空间推理——实现一致性的能力提升。

此次发布的空间智能大模型SenseNova-SI，与“开悟”世界模型相辅相成，将更好地解决多模态模型从数字空间走向物理世界的基础挑战，并在未来进一步推动AI在自动驾驶、机器人等场景的应用。标志着AI在三维世界理解能力上迈出关键一步，也为下一代通用人工智能技术融入物理世界打下坚实基础。

空间智能是推动AI实现从“看懂世界”到“影响世界”的关键进阶能力。

商汤团队联合大晓机器人团队、南洋理工大学等权威学术机构发布论文《与相机共思》，其中提出名为“Puffin”的AI模型，通过“将相机理解为语言”并引入“与相机共思”的理念，消除了视觉-语言-“相机”模态间的鸿沟，从而使AI能够更全面、更交互地进行空间推理。

商汤王飞表示：“‘Puffin’提供了能够从任意视角和方向理解并创造场景，并能灵活拓展至复杂的跨视角理解与生成任务的能力。上述能力将应用于我们正打造的具身世界模型，进一步提升具身智能空间智能性能。”

具体来看，“Puffin”模型首次让“理解”和“生成”联动，通过统一框架让AI能“先算准相机角度（理解），再按这个角度生成新场景（生成）”，而且两个任务共享一套“空间逻辑”，不会出现算的角度和画的场景对不上的问题。

通过“Puffin”模型可以有效提升世界模型对物理世界的时空结构进行深度感知、推理与预测，从而提升具身智能和自动驾驶的全局协同、感知精度和场景训练效率‌。

“Puffin”打造的不只是一个工具型 AI，而是让AI像人一样用相机的视角思考，实现“与相机共思”能力。这种能力让AI从被动处理数据变成主动进行空间推理，提升具身智能空间智能能力；同时，可以使世界模型对物理世界的时空结构进行深度感知、推理与预测，从而提升具身智能和自动驾驶的全局协同、感知精度和场景训练效率‌。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：投资手记259：腾讯的复利（2025-11-1）

新浪BLOG意见反馈留言板　欢迎批评指正