扫码阅读
手机扫码阅读
Sora技术详解及影响分析!
29 2024-09-29
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
查看原文:Sora技术详解及影响分析!
文章来源:
Datawhale
扫码关注公众号
Datawhale干货
作者:李孝杰,清华大学,Datawhale成员
OpenAI的Sora项目展现出了通过视频数据学习世界模型的野心,旨在创建一个世界模拟器。
1-数据工程
1-1 采用patches统一训练数据格式,借鉴ViT,通过encoder将视频压缩成低维隐式空间的序列形式,利用decoder生成视频,带来数据统一和模型可扩展性的优势。
1-2 在原始图片尺寸上训练,增加视频生成时的灵活性,无需数据增强,保留视频的合理角度和构图先验。
1-3 使用re-captioning获得text-videos对,利用DALLE3和GPT4在训练和推理阶段生成对应的描述文本。
2-网络结构
2-1 DiT,结合transformer和ddpm,替换stable diffusion中的unet结构,提高模型表现。
2-2 整体结构,参考ZOMI酱绘制的Sora结构图,可能包括ViViT的时空编码方式和对Decoder输入去噪后的patches序列。
3-影响
3-1 世界模型,Sora展示了3D一致性、长程一致性和物体永久性、与世界互动、模拟数字世界等能力,引发关于其是否具备世界模型特征的讨论。
3-2 CV大一统,Sora的视频生成能力可能扩展至2D和3D领域,影响感知、理解等任务,有可能实现计算机视觉的大一统,消灭计算机图形学。
想要了解更多内容?
查看原文:Sora技术详解及影响分析!
文章来源:
Datawhale
扫码关注公众号
Datawhale的其他文章
带你读论文第二期:复旦大学员司雨,荣获ACL Outstanding Paper Award 2023!
ACL Outstanding Paper Award 2023:知识获取、大语言模型。
Datawhale发布,首个AI Prompt 工程师计划!
Datawhale发布
联合:讯飞星火、开源学习高校联盟
?
为什么电脑配置高,玩《黑神话:悟空》需要等待这么久
Datawhale干货
作者:Eternity,Datawhale成员不少玩家在
大模型理论基础(so-large-lm)课程笔记!
Datawhale干货
作者:辣条,Datawhale优秀学习者前 言
我的开源实践之路!这一路我遇到的困难和收获总结
我也从走过低谷。
加入社区微信群
与行业大咖零距离交流学习
软件研发质量管理体系建设
白皮书上线