扫码阅读
手机扫码阅读
能训出SOTA模型的优质数据集发布!复旦最新VidGen-1M: 文生视频还得靠好数据

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

AI生成未来
扫码关注公众号
摘要
本文提出了一个新的高质量文本到视频模型训练数据集VidGen-1M,并介绍了一种多阶段策展方法,用于在有限的计算资源下制作高质量、精准的数据集。文章的主要贡献包括引入一个专门的数据集、提出策展方法和发布性能优越的文本到视频模型。
数据集介绍
为了解决现有文本到视频模型训练数据集的限制,作者创造了VidGen-1M数据集。该数据集通过粗到细的策展策略,确保了视频的高质量和字幕的时间一致性,从而提升了视频生成模型的性能。
策展方法
在构建VidGen数据集的过程中,作者从HD-VILA数据集中选取长时段高分辨率视频,并通过场景分割、视频标注、过滤和采样,以及VILA模型进行字幕生成等步骤,最终利用大型语言模型LLM进行精细策展。
实验结果
使用VidGen-1M数据集训练的模型在UCF101上取得了比现有最先进模型更好的FVD分数,证明了该数据集的有效性。VidGen-1M的高质量数据对文本到视频生成领域产生了深远影响,其高分辨率和时间一致性的训练数据使模型能够生成更真实和高质量的视频,推动了视频生成技术的发展。
结论
文章总结了VidGen-1M数据集的创建过程、策展方法和实验结果。该数据集的推出为文本到视频生成领域提供了重要的资源,使得生成的视频质量和文本对齐度显著提升,有助于进一步的研究和应用发展。
想要了解更多内容?

AI生成未来
扫码关注公众号
AI生成未来的其他文章
低比特量化的LLAMA3模型有多好? | 香港大学&北航最新研究发布
击下方卡片,关注“AI生成未来”>>后台回复“GAI
如何评价LLM的好坏?一文汇总大语言模型评估数据集
点击下方卡片,关注“AI生成未来”>>关注【AI生
王者归来!Stability-AI又放大招 | Stable Cascade:更快更强的图像生成模型!
关注【AI生成未来】公众号,回复“GAI”,免费获取??
FDGaussian:又快又好的三维重建方案 | Gaussian Splatting和扩散模型超强联合
点击下方卡片,关注“AI生成未来”>>后台回复“
第一个包含百万图像文本对的时尚数据集
文本驱动的时尚合成和设计是AIGC中极为有价值的一部
加入社区微信群
与行业大咖零距离交流学习


PMO实践白皮书
白皮书上线
白皮书上线