扫码阅读
手机扫码阅读

超燃!纯AI生成《泰坦尼克号》大片!浙大&阿里发布MovieDreamer:超长电影生成"梦工厂"

171 2024-10-25

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

MovieDreamer: AI Generating Long Visual Sequences

摘要

本文介绍了MovieDreamer,这是一个新颖的分层框架,它结合了自回归模型和扩散渲染,旨在生成长时间的视觉内容,平衡叙事连贯性与视觉保真度。该方法增加了视频内容生成的时长,且能够保持角色一致性和场景描述的丰富性。通过自回归模型预测视觉token序列,进而利用扩散渲染转换为高质量的视频帧。多模态脚本结合了文本描述和面部embeddings,增强了角色控制和身份保持能力。

方法概览

MovieDreamer框架利用自回归模型保持叙事连贯性,使用扩散自编码器创建图像表示,然后通过自回归模型预测关键帧tokens。该方法包含了反过拟合策略,并提出了结构良好的多模态脚本以及个性化生成的few-shot训练。此外,为了提升生成视频的细节质量,特别是面部特征,本文增强了扩散渲染过程中的交叉注意力模块。

实验与比较

MovieDreamer在多个电影类型中进行了广泛测试,与现有模型相比,展示了出色的生成质量和长时间视频生成能力。实验结果表明,本文方法在保持角色一致性和叙事连贯性方面表现优异,并且生成的视频质量在长时间维度上保持稳定。

结论

MovieDreamer提出了一种有效的方法,以生成具有复杂叙事和高视觉保真度的长时间视频内容。该方法通过结合自回归和扩散的优势,加之多模态脚本和身份保持渲染策略,支持few-shot电影创作,为自动化长时间视频制作的未来发展提供了新的可能性。

想要了解更多内容?