扫码阅读
手机扫码阅读
能训出SOTA模型的优质数据集发布!复旦最新VidGen-1M: 文生视频还得靠好数据
81 2024-10-25
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
文章来源:
AI生成未来
扫码关注公众号
摘要
本文提出了一个新的高质量文本到视频模型训练数据集VidGen-1M,并介绍了一种多阶段策展方法,用于在有限的计算资源下制作高质量、精准的数据集。文章的主要贡献包括引入一个专门的数据集、提出策展方法和发布性能优越的文本到视频模型。
数据集介绍
为了解决现有文本到视频模型训练数据集的限制,作者创造了VidGen-1M数据集。该数据集通过粗到细的策展策略,确保了视频的高质量和字幕的时间一致性,从而提升了视频生成模型的性能。
策展方法
在构建VidGen数据集的过程中,作者从HD-VILA数据集中选取长时段高分辨率视频,并通过场景分割、视频标注、过滤和采样,以及VILA模型进行字幕生成等步骤,最终利用大型语言模型LLM进行精细策展。
实验结果
使用VidGen-1M数据集训练的模型在UCF101上取得了比现有最先进模型更好的FVD分数,证明了该数据集的有效性。VidGen-1M的高质量数据对文本到视频生成领域产生了深远影响,其高分辨率和时间一致性的训练数据使模型能够生成更真实和高质量的视频,推动了视频生成技术的发展。
结论
文章总结了VidGen-1M数据集的创建过程、策展方法和实验结果。该数据集的推出为文本到视频生成领域提供了重要的资源,使得生成的视频质量和文本对齐度显著提升,有助于进一步的研究和应用发展。
想要了解更多内容?
文章来源:
AI生成未来
扫码关注公众号
AI生成未来的其他文章
效果炸裂、刷爆各大视频网站的EMO到底是怎么做到的?
原点击下方卡片,关注“AI生成未来”回复“AIGC交流?
如何"正确"使用Stable Diffusion?文本到图像扩散模型中记忆化实用分析(浙大)
击下方卡片,关注“AI生成未来”>>后台回复“GAI
上海交大&阿里巴巴推出虚拟试衣新里程碑式工作——AnyFit:任意场景、任意组合!
点击下方卡片,关注“AI生成未来”>>后台回复“
单GPU一分钟生成16K高清图像!新加坡国立发布LinFusion:无缝兼容Stable Diffusion插件
点击下方卡片,关注“AI生成未来”作者:Songhua Liu等
连环画创作源泉!港科大、腾讯等开源SEED-Story:开创性多模态长故事生成!
点击下方卡片,关注“AI生成未来”>>后台回复“
加入社区微信群
与行业大咖零距离交流学习
软件研发质量管理体系建设
白皮书上线