扫码阅读
手机扫码阅读

能训出SOTA模型的优质数据集发布!复旦最新VidGen-1M: 文生视频还得靠好数据

20 2024-10-25

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

查看原文:能训出SOTA模型的优质数据集发布!复旦最新VidGen-1M: 文生视频还得靠好数据
文章来源:
AI生成未来
扫码关注公众号

摘要

本文提出了一个新的高质量文本到视频模型训练数据集VidGen-1M,并介绍了一种多阶段策展方法,用于在有限的计算资源下制作高质量、精准的数据集。文章的主要贡献包括引入一个专门的数据集、提出策展方法和发布性能优越的文本到视频模型。

数据集介绍

为了解决现有文本到视频模型训练数据集的限制,作者创造了VidGen-1M数据集。该数据集通过粗到细的策展策略,确保了视频的高质量和字幕的时间一致性,从而提升了视频生成模型的性能。

策展方法

在构建VidGen数据集的过程中,作者从HD-VILA数据集中选取长时段高分辨率视频,并通过场景分割、视频标注、过滤和采样,以及VILA模型进行字幕生成等步骤,最终利用大型语言模型LLM进行精细策展。

实验结果

使用VidGen-1M数据集训练的模型在UCF101上取得了比现有最先进模型更好的FVD分数,证明了该数据集的有效性。VidGen-1M的高质量数据对文本到视频生成领域产生了深远影响,其高分辨率和时间一致性的训练数据使模型能够生成更真实和高质量的视频,推动了视频生成技术的发展。

结论

文章总结了VidGen-1M数据集的创建过程、策展方法和实验结果。该数据集的推出为文本到视频生成领域提供了重要的资源,使得生成的视频质量和文本对齐度显著提升,有助于进一步的研究和应用发展。

想要了解更多内容?

查看原文:能训出SOTA模型的优质数据集发布!复旦最新VidGen-1M: 文生视频还得靠好数据
文章来源:
AI生成未来
扫码关注公众号