长视频生成又有重大突破!DreamFactory:一致、连贯且引人入胜的长视频生成框架
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
亮点直击
- 提出DreamFactory框架,模拟AI虚拟电影制作团队,利用多agent协作进行视频生成任务。
- 引入监控机制和图像数据库以确保长视频生成的图像一致性。
- 在UTF-101和HMDB51数据集上测试显示DreamFactory生成视频质量显著优于传统方法。
DreamFactory框架
介绍了基于大语言模型(LLM)的DreamFactory框架,用于生成风格一致且复杂的长视频。框架利用多智能体协作原则和关键帧迭代设计方法确保视频一致性,并使用链式思维(COT)解决大语言模型不确定性问题。贡献了一个包含150个经评分视频的多场景视频数据集。
角色定义与框架流程
DreamFactory模拟动画公司,包含CEO、导演、编剧等角色,通过社交互动和合作创建视频。每个角色有明确的职位、任务和要求。框架包括任务定义、风格决策、故事提示、脚本设计和关键帧设计等六个阶段,通过对话和角色扮演推进。
关键帧迭代设计
介绍了关键帧迭代设计方法,解决长视频生成中的长期记忆和连贯性问题。方法包括短期记忆知识的监控和长期记忆系统的构建,以及在迭代过程中保持风格、角色和背景的一致性。
实验与评估结果
通过各种工具模型评估视频质量,使用Fréchet Inception Distance (FID)、Inception Score (IS)、CLIP分数等指标。引入了跨场景面部距离得分(CSFD Score)和跨场景风格一致性得分(CSSC Score)来评估长视频的角色和风格一致性。实验结果显示DreamFactory在视频质量、一致性和叙事对齐方面实现了显著提升。
结论
DreamFactory是一个能够生成一致、连贯且引人入胜的长视频的多agent框架。通过新的评估指标验证了其能力,并在测试集上实现高度一致的连续故事生成,标志着视频生成领域的重大突破。
致谢
邀请读者点赞、关注、转发以及加入「AI生成未来社区」群聊,进行更多技术交流。
想要了解更多内容?