扫码阅读

手机扫码阅读

SIGGRAPH`24 | 毫米级接近真实动作生成！LGTM：文本驱动！(深大&快手&字节)

232 2024-10-22

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：SIGGRAPH`24 | 毫米级接近真实动作生成！LGTM：文本驱动！(深大&快手&字节)

文章来源：

AI生成未来

扫码关注公众号

LGTM: 文本到动作生成的局部到全局pipeline研究摘要

概述

本文介绍了LGTM，一种新颖的文本到动作生成架构。LGTM基于扩散模型，旨在准确转换文本描述为人体动作。传统方法在动作与身体部位对齐方面存在挑战。LGTM通过两阶段pipeline提高局部语义对齐的精确度，并确保全局一致性。研究表明，LGTM在生成动作方面取得了显著改进。

研究背景与挑战

文本到动作转换在虚拟现实、机器人技术和人机交互等领域具有潜在应用价值。尽管技术进步显著，但从文本生成精确且连贯的动作仍面临挑战。现有方法在局部语义捕捉和全局动作生成方面表现不佳，常出现语义泄露和元素缺失问题。

LGTM架构

LGTM通过局部到全局方法，分为两个阶段，首先使用大语言模型将动作描述分解为部分特定描述，然后独立编码各身体部位动作。全身优化器基于注意力机制整合不同身体部位信息，优化全身动作连贯性。

方法论

LGTM方法包含三个主要部分：划分模块、部分动作编码器和全身动作优化器。划分模块使用LLMs分解描述，部分动作编码器独立处理部分描述，全身优化器整合各部分动作并优化全身动作连贯性。

实验与评估

实验结果显示LGTM在生成精确局部和全局一致的动作方面优于现有技术。几项消融研究突显了LGTM各组件的贡献。定量评估指标包括生成动作的质量、多样性、精度和多模态距离。

结论与未来工作

LGTM显著提高了文本到动作生成的准确性和连贯性。未来工作将探索更细致的动作生成和长期动作的质量提升。

想要了解更多内容？

查看原文：SIGGRAPH`24 | 毫米级接近真实动作生成！LGTM：文本驱动！(深大&快手&字节)

文章来源：

AI生成未来

扫码关注公众号

相关推荐

TikTok、ChatGPT、Midjourney最新安装教程

305

TikTok、ChatGPT和Midjourney最新注册有效方法。

当ChatGPT永远记住了我的一切 - 他甚至比我自己还了解我

166

记忆信息 Memory Prompt

我想给他完整的一生

玩了100小时SD后，我整理了一份SD插件大全...

141

SD 插件视频 AI

后续我会着重笔墨来聊聊基于SD的AI视频制作~\x0d\x0a敬请期待~

动手实现GraphRAG，检索效果大幅提升

255

RAG 模型 GraphRAG Ollama

检索增强生成（RAG）技术及其进阶版本GraphRAG，通过设置环境和使用Ollama实现应用。

机器学习新动向，用PyTorch实现液态神经网络（Liquid Neural Network）

701

LNN 神经网络学习液态

介绍液态神经网络（LNN）并提供在PyTorch中实现LNN的步骤指南。

以下六类职业，将不会被人工智能取代

126

随着人工智能技术的快速发展，许多行业都经历了变革，一些岗位也因自动化和智能化而受到威胁。

AI生成未来

AIGC最新技术及资讯

159 篇文章

浏览 29.7K

AI生成未来的其他文章

强强联合！DiffusionGPT : LLM驱动的统一文本到图像生成系统

关注【AI生成未来】公众号，回复“GAI”，免费获取??

Control Color：图像着色新SOTA！南洋理工大学最新

点击上方蓝字，关注 AI 生成未来，干货不停后台回?

AI论文润色平台一览，让你的论文更加流畅易懂！

关注【AI生成未来】公众号，回复“GAI”，免费获取??

Vidu官方论文来了！媲美Sora的国产视频生成器背后技术探秘

击下方卡片，关注“AI生成未来”>>后台回复“GAI

你的文生图模型可以秘密接收多模态提示了！南洋理工&腾讯最新提出EMMA

点击下方卡片，关注“AI生成未来”>>后台回复“

随机阅读

加入社区微信群

与行业大咖零距离交流学习

软件研发质量管理体系建设白皮书上线

去下载

联系我们
电话：4006 8899 23 邮箱：beining@chandao.com
融实践库
关于我们加入我们
微信号：xdwjack
立即学习
微信公众号
微信视频号
社区微信群

友情链接：禅道项目管理软件云禅道敏捷开发喧喧IM ZDOO协同办公 ZTF自动化测试框架 ZenData测试数据生成器 ZenDAS数据分析渠成企业软件百宝箱 ZenShot开源截图工具 ZenPanel服务控制面板敏捷咨询

SIGGRAPH`24 | 毫米级接近真实动作生成！LGTM：文本驱动！(深大&快手&字节)

LGTM: 文本到动作生成的局部到全局pipeline研究摘要

概述

研究背景与挑战

LGTM架构

相关工作

方法论

实验与评估

结论与未来工作

项目管理必须是一把手工程

联系我们

融实践库

微信公众号

微信视频号

社区微信群