扫码阅读
手机扫码阅读
能训出SOTA模型的优质数据集发布!复旦最新VidGen-1M: 文生视频还得靠好数据
171 2024-10-25
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
文章来源:
AI生成未来
扫码关注公众号
摘要
本文提出了一个新的高质量文本到视频模型训练数据集VidGen-1M,并介绍了一种多阶段策展方法,用于在有限的计算资源下制作高质量、精准的数据集。文章的主要贡献包括引入一个专门的数据集、提出策展方法和发布性能优越的文本到视频模型。
数据集介绍
为了解决现有文本到视频模型训练数据集的限制,作者创造了VidGen-1M数据集。该数据集通过粗到细的策展策略,确保了视频的高质量和字幕的时间一致性,从而提升了视频生成模型的性能。
策展方法
在构建VidGen数据集的过程中,作者从HD-VILA数据集中选取长时段高分辨率视频,并通过场景分割、视频标注、过滤和采样,以及VILA模型进行字幕生成等步骤,最终利用大型语言模型LLM进行精细策展。
实验结果
使用VidGen-1M数据集训练的模型在UCF101上取得了比现有最先进模型更好的FVD分数,证明了该数据集的有效性。VidGen-1M的高质量数据对文本到视频生成领域产生了深远影响,其高分辨率和时间一致性的训练数据使模型能够生成更真实和高质量的视频,推动了视频生成技术的发展。
结论
文章总结了VidGen-1M数据集的创建过程、策展方法和实验结果。该数据集的推出为文本到视频生成领域提供了重要的资源,使得生成的视频质量和文本对齐度显著提升,有助于进一步的研究和应用发展。
想要了解更多内容?
文章来源:
AI生成未来
扫码关注公众号
AI生成未来的其他文章
ECCV`24 | 艺术文本和场景文本分割任务新SOTA 方法!华科&Adobe提出WAS!
点击下方卡片,关注“AI生成未来”>>后台回复“
如何从文本生成图像和视频?9个常用生成器一览!
如何从文本生成图像和视频?9个常用生成器一览!
SD和Sora们背后的关键技术!一文搞懂所有 VAE 模型(4个AE+12个VAE原理汇总)
点击下方卡片,关注“AI生成未来”>>关注【AI生
强强联合!DiffusionGPT : LLM驱动的统一文本到图像生成系统
关注【AI生成未来】公众号,回复“GAI”,免费获取??
突破性进展!只需单张参考图,完美仿写各种手写内容!华南理工等开源One-DM
点击下方卡片,关注“AI生成未来”作者:Gang Dai等
??
加入社区微信群
与行业大咖零距离交流学习
软件研发质量管理体系建设
白皮书上线