扫码阅读
手机扫码阅读

长视频生成又有重大突破!DreamFactory:一致、连贯且引人入胜的长视频生成框架

13 2024-10-22

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

查看原文:长视频生成又有重大突破!DreamFactory:一致、连贯且引人入胜的长视频生成框架
文章来源:
AI生成未来
扫码关注公众号
文章摘要

亮点直击

  • 提出DreamFactory框架,模拟AI虚拟电影制作团队,利用多agent协作进行视频生成任务。
  • 引入监控机制和图像数据库以确保长视频生成的图像一致性。
  • 在UTF-101和HMDB51数据集上测试显示DreamFactory生成视频质量显著优于传统方法。

DreamFactory框架

介绍了基于大语言模型(LLM)的DreamFactory框架,用于生成风格一致且复杂的长视频。框架利用多智能体协作原则和关键帧迭代设计方法确保视频一致性,并使用链式思维(COT)解决大语言模型不确定性问题。贡献了一个包含150个经评分视频的多场景视频数据集。

角色定义与框架流程

DreamFactory模拟动画公司,包含CEO、导演、编剧等角色,通过社交互动和合作创建视频。每个角色有明确的职位、任务和要求。框架包括任务定义、风格决策、故事提示、脚本设计和关键帧设计等六个阶段,通过对话和角色扮演推进。

关键帧迭代设计

介绍了关键帧迭代设计方法,解决长视频生成中的长期记忆和连贯性问题。方法包括短期记忆知识的监控和长期记忆系统的构建,以及在迭代过程中保持风格、角色和背景的一致性。

实验与评估结果

通过各种工具模型评估视频质量,使用Fréchet Inception Distance (FID)、Inception Score (IS)、CLIP分数等指标。引入了跨场景面部距离得分(CSFD Score)和跨场景风格一致性得分(CSSC Score)来评估长视频的角色和风格一致性。实验结果显示DreamFactory在视频质量、一致性和叙事对齐方面实现了显著提升。

结论

DreamFactory是一个能够生成一致、连贯且引人入胜的长视频的多agent框架。通过新的评估指标验证了其能力,并在测试集上实现高度一致的连续故事生成,标志着视频生成领域的重大突破。

致谢

邀请读者点赞、关注、转发以及加入「AI生成未来社区」群聊,进行更多技术交流。

想要了解更多内容?

查看原文:长视频生成又有重大突破!DreamFactory:一致、连贯且引人入胜的长视频生成框架
文章来源:
AI生成未来
扫码关注公众号