Sora的技术现状

2024-02-21 10:20:35

标签： sora openai 人工智能 ai 视频生成ai

https://openai.com/research/video-generation-models-as-world-simulators

技术报告的链接。本人仅做要点的基础翻译及理解，不做推测。觉得翻译得不到位，可以看原文。

Sora目前还在开发中，未达到全面开放应用的程度。

1. Sora不仅仅是作为视频生成模型-Video generation model，作为世界模拟器-world simulator。目标非常大。

2. Sora的基本工作原理，包括：将可视化数据变为小片-Turning visual data into patch

es，视频压缩网络-Video compression network，时空潜在小片-Spacetime latent

patches，为生成视频将形变单元放大-Scaling transformers for video generation。

3. 训练计算量越大，生成的视频质量越高。

4. 在原始分辨率上训练有不少优点。

(1) 采样灵活性-Sampling flexibility。

(2) 改进的框架与构图-Improved framing and composition。

5. 支撑文生视频、图生视频、视频生视频多种方式，后两者的效果很惊艳。

6. 可以对现有视频进行时间轴的延伸，可以对视频生成视频进行参数编辑，可以衔接任意两段（同分辨率的）视频。

7. Sora当然也可以生成图片，支持2048x2048的分辨率。

8. 显露模拟能力-Emerging simulation capabilities。

(1) 3D一致性-3D consistency。

(2) 广域一致性及对象一致性-Long-range coherence and object permanence。

(3) 与世界交互-Interacting with the world。

(4) 模拟数字世界-Simulating digital worlds。

9. 作为世界模拟器，Sora暂时还有一些局限性；而作为视频模型，确定性很强。

阅读(0) 收藏(0) 转载(0) 举报/Report

前一篇: 《热辣滚烫》与《飞驰人生2》影评后一篇:重温暴力美学-《杀死比尔-整个血腥事...