扫码阅读
手机扫码阅读

又见神仙打架,全面超越快手可灵?智谱AI联合清华发布CogVideoX | 技术报告解析

68 2024-10-25

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

查看原文:又见神仙打架,全面超越快手可灵?智谱AI联合清华发布CogVideoX | 技术报告解析
文章来源:
AI生成未来
扫码关注公众号
CogVideoX Summary

摘要

智谱AI最近推出了CogVideoX,这是一个基于文本提示生成视频的大规模扩散Transformer模型。该模型通过使用3D变分自编码器(VAE)对视频数据进行空间和时间压缩,配合专家Transformer块,以促进文本与视频的深度融合,从而实现了连贯长时间视频的生成。CogVideoX采用的技术和训练方法使其在多项评估中表现出先进性能。

CogVideoX架构

模型采用3D causal VAE来压缩视频到潜在空间,再结合T5对文本进行编码,通过专家Transformer块实现文本与视频的深度融合。模型训练利用了渐进式策略,并通过特殊的注意力机制和自适应Layernorm处理不同模态的特征。

训练CogVideoX

训练过程中结合了图像和视频数据,采用了显式均匀采样和渐进式训练方法,以提高训练稳定性。此外,实施了Frame Pack策略,通过混合不同长度的视频训练来解决数据形状不一致的问题。

数据处理

研究者们通过视频过滤器和视频重述模型,构建了一系列高质量的视频剪辑及其文本描述。同时,开发了高质量视频标题数据生成pipeline,为训练CogVideoX提供了丰富的训练数据。

实证评估

CogVideoX通过自动化指标和人工评估的方式进行性能展示。在自动化指标评估中,CogVideoX在绝大多数指标上表现优异。人工评估也显示了CogVideoX相较于其他模型的优势。

结论

CogVideoX展示了其在生成连贯长时间视频方面的先进性能,其利用的技术和训练方法有助于提高视频的质量和语义对齐度。研究者们将继续努力,致力于提升模型的性能,并推动文本到视频生成领域的发展。

想要了解更多内容?

查看原文:又见神仙打架,全面超越快手可灵?智谱AI联合清华发布CogVideoX | 技术报告解析
文章来源:
AI生成未来
扫码关注公众号