Sora的技术现状

2024-02-21 10:20:35
标签: sora openai 人工智能 ai 视频生成ai

https://openai.com/research/video-generation-models-as-world-simulators

技术报告的链接。本人仅做要点的基础翻译及理解,不做推测。觉得翻译得不到位,可以看原文。

Sora目前还在开发中,未达到全面开放应用的程度。

 

1. Sora不仅仅是作为视频生成模型-Video generation model,作为世界模拟器-world simulator。目标非常大。

2. Sora的基本工作原理,包括:将可视化数据变为小片-Turning visual data into patch

es,视频压缩网络-Video compression network,时空潜在小片-Spacetime latent

 patches,为生成视频将形变单元放大-Scaling transformers for video generation

3. 训练计算量越大,生成的视频质量越高。

4. 在原始分辨率上训练有不少优点。

(1) 采样灵活性-Sampling flexibility

(2) 改进的框架与构图-Improved framing and composition

5. 支撑文生视频、图生视频、视频生视频多种方式,后两者的效果很惊艳。

6. 可以对现有视频进行时间轴的延伸,可以对视频生成视频进行参数编辑,可以衔接任意两段(同分辨率的)视频。

7. Sora当然也可以生成图片,支持2048x2048的分辨率。

8. 显露模拟能力-Emerging simulation capabilities

(1) 3D一致性-3D consistency

(2) 广域一致性及对象一致性-Long-range coherence and object permanence

(3) 与世界交互-Interacting with the world

(4) 模拟数字世界-Simulating digital worlds

9. 作为世界模拟器,Sora暂时还有一些局限性;而作为视频模型,确定性很强。


阅读(0) 收藏(0) 转载(0) 举报/Report
相关阅读

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有