扫码阅读

手机扫码阅读

Sora技术详解及影响分析！

247 2024-09-29

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：Sora技术详解及影响分析！

文章来源：

Datawhale

扫码关注公众号

Datawhale干货

作者：李孝杰，清华大学，Datawhale成员

OpenAI的Sora项目展现出了通过视频数据学习世界模型的野心，旨在创建一个世界模拟器。

1-数据工程

1-1 采用patches统一训练数据格式，借鉴ViT，通过encoder将视频压缩成低维隐式空间的序列形式，利用decoder生成视频，带来数据统一和模型可扩展性的优势。

1-2 在原始图片尺寸上训练，增加视频生成时的灵活性，无需数据增强，保留视频的合理角度和构图先验。

1-3 使用re-captioning获得text-videos对，利用DALLE3和GPT4在训练和推理阶段生成对应的描述文本。

2-网络结构

2-1 DiT，结合transformer和ddpm，替换stable diffusion中的unet结构，提高模型表现。

2-2 整体结构，参考ZOMI酱绘制的Sora结构图，可能包括ViViT的时空编码方式和对Decoder输入去噪后的patches序列。

3-影响

3-1 世界模型，Sora展示了3D一致性、长程一致性和物体永久性、与世界互动、模拟数字世界等能力，引发关于其是否具备世界模型特征的讨论。

3-2 CV大一统，Sora的视频生成能力可能扩展至2D和3D领域，影响感知、理解等任务，有可能实现计算机视觉的大一统，消灭计算机图形学。

想要了解更多内容？

查看原文：Sora技术详解及影响分析！

文章来源：

Datawhale

扫码关注公众号

相关推荐

Kimi重磅更新：Kimi + 上线，一句话生成高质量提示词，一键优化简历、模拟面试...

2203

Kimi Kimi+ 提示 AI

国产 AI 之光

AI正在弱化人们的“耐心”

219

专注与耐性

我们用了60个小时，做了一部AI短片 - 全流程复盘拆解

337

... 死亡故事 AI

《The Last Goodbye》

当我用AI做了《Mojito》的动画版MV - 献给周杰伦

268

AI 视频 MV SD

之前我用MJ+Runway和MJ+PIKA的工作流，做了两期AI视频。我用AI做了一部《流浪地球3》的预告片

基于Llama3，为本地文件创建生成式AI搜索引擎

616

文档模型索引 Qdrant

介绍一款集成Llama 3模型的开源生成式搜索引擎，实现本地文件的智能语义搜索。

AI大模型都是如何盈利的？

732

人工智能的商业落地之路。

一个专注于AI领域的开源组织，汇聚了众多优秀学习者，使命-for the learner，和学习者一起成长。

45 篇文章

浏览 16.7K

Datawhale的其他文章

WanJuan-CC数据集：为大型语言模型训练提供高质量Webtext资源

为学界和业界提供大规模、高质量的数据支撑。

开发者视角看GLM-4-9B！Datawhale成员万字测评（二）

GLM-4最新开源版本硬核测评。

那一年，为了进阿里背过的SQL题

纯手工的8291字的SQL面试题总结分享给初学者。

Github调研：开发者对生产力、协作和AI编码工具的看法

在美国，有92%的开发者使用AI编码工具，70%说他们看到了使用这些工具的巨大好处。

达到1k stars后，我对大模型开源教程的反思！

Datawhale干货作者：陈安东，Datawhale成员前言 “?

随机阅读

敏捷实践大全

杂谈推理逻辑的严密性

从3级到高成熟度的18项可能的变化

项目级目标与组织级目标的差别

对需求签字画押，有用吗？

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线