扫码阅读
手机扫码阅读
Sora技术详解及影响分析!
94 2024-09-29
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
查看原文:Sora技术详解及影响分析!
文章来源:
Datawhale
扫码关注公众号
Datawhale干货
作者:李孝杰,清华大学,Datawhale成员
OpenAI的Sora项目展现出了通过视频数据学习世界模型的野心,旨在创建一个世界模拟器。
1-数据工程
1-1 采用patches统一训练数据格式,借鉴ViT,通过encoder将视频压缩成低维隐式空间的序列形式,利用decoder生成视频,带来数据统一和模型可扩展性的优势。
1-2 在原始图片尺寸上训练,增加视频生成时的灵活性,无需数据增强,保留视频的合理角度和构图先验。
1-3 使用re-captioning获得text-videos对,利用DALLE3和GPT4在训练和推理阶段生成对应的描述文本。
2-网络结构
2-1 DiT,结合transformer和ddpm,替换stable diffusion中的unet结构,提高模型表现。
2-2 整体结构,参考ZOMI酱绘制的Sora结构图,可能包括ViViT的时空编码方式和对Decoder输入去噪后的patches序列。
3-影响
3-1 世界模型,Sora展示了3D一致性、长程一致性和物体永久性、与世界互动、模拟数字世界等能力,引发关于其是否具备世界模型特征的讨论。
3-2 CV大一统,Sora的视频生成能力可能扩展至2D和3D领域,影响感知、理解等任务,有可能实现计算机视觉的大一统,消灭计算机图形学。
想要了解更多内容?
查看原文:Sora技术详解及影响分析!
文章来源:
Datawhale
扫码关注公众号
Datawhale的其他文章
加入社区微信群
与行业大咖零距离交流学习
软件研发质量管理体系建设
白皮书上线