任你五花八门预训练方法，自监督学习依然能打！

76 2024-09-29

模型视频训练生成 https

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：任你五花八门预训练方法，自监督学习依然能打！

文章来源：

啥都会一点的研究生

扫码关注公众号

Article Summary

最新计算机视觉与视频理解研究进展

Battle of the Backbones: 本研究旨在比较和基准测试各种预训练模型，包括视觉语言模型、自监督学习模型以及Stable Diffusion骨干。通过对1500多次训练的分析，发现尽管视觉变换器（ViTs）和自监督学习（SSL）越来越受欢迎，但在大型训练集上以监督方式预训练的卷积神经网络在大多数任务中仍然表现最佳。研究还指出自监督学习的Backbone在同类比较中表现出竞争力，这表明自监督学习的预训练应使用更先进的架构和更大的数据集。

MM-VID: 这项工作充分利用了GPT-4V(ision)的能力，结合视觉、音频和语言专业工具以促进对视频的高级理解。通过GPT-4V实现视频到脚本的生成，将多模态元素转录成文本脚本，为大型语言模型提供数据，从而实现高级视频理解，并证明了其在不同视频类型和时长中的有效性。

LLaVA-Interactive: 这是一个多模态人机交互研究原型，它能够通过获取多模态用户输入并生成响应来与用户进行多轮对话。系统整合了LLaVA的视觉聊天、SEEM图像分割和GLIGEN图像生成编辑等多模态技能，为未来多模态交互系统研究提供了潜在的应用场景展示。

ZeroNVS: 由飞飞团队提出的3D感知扩散模型ZeroNVS，解决了野外多对象场景和复杂背景下单图像新视角合成的挑战。该模型使用了一种新颖的相机调节参数化和归一化方案，并提出了SDS anchoring以提高新视角的合成多样性，在zero-shot设置下在DTU数据集上取得了新的最先进结果。

VideoCrafter1: 这两个扩散模型旨在生成高质量视频。文本到视频（T2V）模型可以根据文本输入合成视频，而图像到视频（I2V）模型则能将给定图像转换为视频剪辑。这些模型提供了比现有开源T2V模型更高的视频质量，并且是第一个能够保持内容约束将图像转换为视频剪辑的开源I2V基础模型。

这些最新的研究展示了在计算机视觉及视频理解领域的前沿技术，其中包括新模型的比较、多模态理解、人机交互原型以及新视角合成技术，为未来的研究方向和应用提供了重要的参考和基础。