扫码阅读
手机扫码阅读

SIGGRAPH`24 | 毫米级接近真实动作生成!LGTM:文本驱动!(深大&快手&字节)

130 2024-10-22

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

查看原文:SIGGRAPH`24 | 毫米级接近真实动作生成!LGTM:文本驱动!(深大&快手&字节)
文章来源:
AI生成未来
扫码关注公众号
LGTM: 文本到动作生成的局部到全局pipeline研究摘要

LGTM: 文本到动作生成的局部到全局pipeline研究摘要

概述

本文介绍了LGTM,一种新颖的文本到动作生成架构。LGTM基于扩散模型,旨在准确转换文本描述为人体动作。传统方法在动作与身体部位对齐方面存在挑战。LGTM通过两阶段pipeline提高局部语义对齐的精确度,并确保全局一致性。研究表明,LGTM在生成动作方面取得了显著改进。

研究背景与挑战

文本到动作转换在虚拟现实、机器人技术和人机交互等领域具有潜在应用价值。尽管技术进步显著,但从文本生成精确且连贯的动作仍面临挑战。现有方法在局部语义捕捉和全局动作生成方面表现不佳,常出现语义泄露和元素缺失问题。

LGTM架构

LGTM通过局部到全局方法,分为两个阶段,首先使用大语言模型将动作描述分解为部分特定描述,然后独立编码各身体部位动作。全身优化器基于注意力机制整合不同身体部位信息,优化全身动作连贯性。

相关工作

本文回顾了身体分区建模和文本到动作生成的相关研究。部分运动合成和文本驱动的动作生成技术的发展为LGTM提供了灵感。

方法论

LGTM方法包含三个主要部分:划分模块、部分动作编码器和全身动作优化器。划分模块使用LLMs分解描述,部分动作编码器独立处理部分描述,全身优化器整合各部分动作并优化全身动作连贯性。

实验与评估

实验结果显示LGTM在生成精确局部和全局一致的动作方面优于现有技术。几项消融研究突显了LGTM各组件的贡献。定量评估指标包括生成动作的质量、多样性、精度和多模态距离。

结论与未来工作

LGTM显著提高了文本到动作生成的准确性和连贯性。未来工作将探索更细致的动作生成和长期动作的质量提升。

想要了解更多内容?

查看原文:SIGGRAPH`24 | 毫米级接近真实动作生成!LGTM:文本驱动!(深大&快手&字节)
文章来源:
AI生成未来
扫码关注公众号