扫码阅读
手机扫码阅读

Sora技术详解及影响分析!

29 2024-09-29

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

查看原文:Sora技术详解及影响分析!
文章来源:
Datawhale
扫码关注公众号

Datawhale干货

作者:李孝杰,清华大学,Datawhale成员

OpenAI的Sora项目展现出了通过视频数据学习世界模型的野心,旨在创建一个世界模拟器。

1-数据工程

1-1 采用patches统一训练数据格式,借鉴ViT,通过encoder将视频压缩成低维隐式空间的序列形式,利用decoder生成视频,带来数据统一和模型可扩展性的优势。

1-2 在原始图片尺寸上训练,增加视频生成时的灵活性,无需数据增强,保留视频的合理角度和构图先验。

1-3 使用re-captioning获得text-videos对,利用DALLE3和GPT4在训练和推理阶段生成对应的描述文本。

2-网络结构

2-1 DiT,结合transformer和ddpm,替换stable diffusion中的unet结构,提高模型表现。

2-2 整体结构,参考ZOMI酱绘制的Sora结构图,可能包括ViViT的时空编码方式和对Decoder输入去噪后的patches序列。

3-影响

3-1 世界模型,Sora展示了3D一致性、长程一致性和物体永久性、与世界互动、模拟数字世界等能力,引发关于其是否具备世界模型特征的讨论。

3-2 CV大一统,Sora的视频生成能力可能扩展至2D和3D领域,影响感知、理解等任务,有可能实现计算机视觉的大一统,消灭计算机图形学。

想要了解更多内容?

查看原文:Sora技术详解及影响分析!
文章来源:
Datawhale
扫码关注公众号