MSRA古纾旸:2024年,视觉生成领域最重要的问题有哪些?
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
亮点直击
文章概述了视觉生成领域中的核心问题:如何分解视觉信号。所有其他问题都与这一核心问题密切相关,并源于不适当的信号分解方法。作者希望通过本文引起研究人员对于视觉信号分解重要性的关注。
问题1:生成模型的目标是什么?
生成模型旨在创建人们所设想的数字信号。这包括识别信号的模态、确定生成状态,并从流形学习角度确定包络空间维度与模仿目标分布。研究人员不断寻找强大建模能力的模型,如EBMs、VAEs、GANs和扩散模型,并探索如何更高效、可解释地生成结果。
问题2:视觉信号分解问题
视觉信号分解是模拟文本内容或视频等复杂分布的巨大挑战。需要将分布建模问题分解为简单子问题,如语言分解和图像块分解。然而,图像块分解缺乏等变特性,导致单一模型难以涵盖不同分布。深度分解方法面临无效编码问题,而噪声强度分解的扩散模型虽有潜力,但实践中存在挑战。
问题3:分词问题
图像和视频生成模型通常采用两阶段方法,先压缩数据再建模,但压缩过程中的复杂性对模型拟合阶段存在挑战。因此,研究人员使用正则化约束和自适应长度编码策略以平衡重建精度和拟合复杂性。
问题4:扩散模型是否是最大似然模型?
扩散模型最初基于最大似然推导训练损失,但实践中对似然函数的完全理解和应用仍有挑战。生成过程中的无分类器引导和评估阶段的质量评价揭示了最大化似然并非总是等同于最优结果。
问题5:对于扩散模型,如何平衡不同SNR之间的冲突?
扩散模型中的不同噪声强度子任务缺乏等变性,但可以通过损失加权和重要性采样来平衡。研究表明,策略性地调整损失权重或噪声调度有助于提高模型性能。
问题6:扩散模型是否符合缩放规律?
视觉生成中的扩散模型是否符合缩放规律尚不清楚,因为缺少与人类感知一致的评估指标。尽管通过重要性加权损失或FID等指标可以进行一些预测和评估,但为确保与人类偏好对齐,可能需要广泛的人类注释作为评估基准。
想要了解更多内容?