扫码阅读
手机扫码阅读
超燃!纯AI生成《泰坦尼克号》大片!浙大&阿里发布MovieDreamer:超长电影生成"梦工厂"
171 2024-10-25
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
文章来源:
AI生成未来
扫码关注公众号
摘要
本文介绍了MovieDreamer,这是一个新颖的分层框架,它结合了自回归模型和扩散渲染,旨在生成长时间的视觉内容,平衡叙事连贯性与视觉保真度。该方法增加了视频内容生成的时长,且能够保持角色一致性和场景描述的丰富性。通过自回归模型预测视觉token序列,进而利用扩散渲染转换为高质量的视频帧。多模态脚本结合了文本描述和面部embeddings,增强了角色控制和身份保持能力。
方法概览
MovieDreamer框架利用自回归模型保持叙事连贯性,使用扩散自编码器创建图像表示,然后通过自回归模型预测关键帧tokens。该方法包含了反过拟合策略,并提出了结构良好的多模态脚本以及个性化生成的few-shot训练。此外,为了提升生成视频的细节质量,特别是面部特征,本文增强了扩散渲染过程中的交叉注意力模块。
实验与比较
MovieDreamer在多个电影类型中进行了广泛测试,与现有模型相比,展示了出色的生成质量和长时间视频生成能力。实验结果表明,本文方法在保持角色一致性和叙事连贯性方面表现优异,并且生成的视频质量在长时间维度上保持稳定。
结论
MovieDreamer提出了一种有效的方法,以生成具有复杂叙事和高视觉保真度的长时间视频内容。该方法通过结合自回归和扩散的优势,加之多模态脚本和身份保持渲染策略,支持few-shot电影创作,为自动化长时间视频制作的未来发展提供了新的可能性。
想要了解更多内容?
文章来源:
AI生成未来
扫码关注公众号
AI生成未来的其他文章
像俄罗斯方块一样生成视频! 北大联合快手AI团队推出新框架VideoTetris实现跟随复杂指令的文生视频!
点击下方卡片,关注“AI生成未来”>>后台回复“
值得细读的8个视觉大模型生成式预训练方法
点击下方卡片,关注“AI生成未来”>>关注【AI生
低比特量化的LLAMA3模型有多好? | 香港大学&北航最新研究发布
击下方卡片,关注“AI生成未来”>>后台回复“GAI
即插即用!CVD:第一个生成具有相机控制的多视图一致视频方案!(斯坦福&港中文)
点击下方卡片,关注“AI生成未来”>>后台回复“
与 ChatGPT 的对话:技术、应用和局限性
摘要人工智能聊天机器人的出现引起了全世界的注意,它可以生成类似人类的句子并写出连贯的文章。
加入社区微信群
与行业大咖零距离交流学习
软件研发质量管理体系建设
白皮书上线