LGTM: Local-to-Global Text-Driven Human Motion Diffusion Model

要約

本論文では、Text-to-Motion生成のための新しいLocal-to-GlobalパイプラインであるLGTMを紹介する。LGTMは拡散ベースのアーキテクチャを利用し、コンピュータアニメーションにおいて、テキスト記述を意味的に首尾一貫した人間の動きに正確に変換するという課題に対処することを目的としている。特に、従来の手法では、意味的な不一致、特に特定のモーションを正しい体の部位にアライメントするのに苦労することが多い。この問題に対処するために、我々はこの課題を克服するための2段階のパイプラインを提案する。まず、大規模言語モデル(LLM)を用いて、グローバルなモーション記述をパーツ固有のナラティブに分解し、それを独立したボディパーツモーションエンコーダで処理することで、局所的なセマンティックアライメントを正確に行う。最後に、アテンションベースのフルボディ・オプティマイザがモーション生成結果を洗練し、全体的な一貫性を保証する。我々の実験は、LGTMが局所的に正確で意味的に整列された人間の動きを生成する際に著しい改善を得ることを実証し、テキストからモーションへのアプリケーションにおいて注目すべき進歩を示す。本論文のコードとデータは https://github.com/L-Sun/LGTM で入手可能である。

要約(オリジナル)

In this paper, we introduce LGTM, a novel Local-to-Global pipeline for Text-to-Motion generation. LGTM utilizes a diffusion-based architecture and aims to address the challenge of accurately translating textual descriptions into semantically coherent human motion in computer animation. Specifically, traditional methods often struggle with semantic discrepancies, particularly in aligning specific motions to the correct body parts. To address this issue, we propose a two-stage pipeline to overcome this challenge: it first employs large language models (LLMs) to decompose global motion descriptions into part-specific narratives, which are then processed by independent body-part motion encoders to ensure precise local semantic alignment. Finally, an attention-based full-body optimizer refines the motion generation results and guarantees the overall coherence. Our experiments demonstrate that LGTM gains significant improvements in generating locally accurate, semantically-aligned human motion, marking a notable advancement in text-to-motion applications. Code and data for this paper are available at https://github.com/L-Sun/LGTM

arxiv情報

著者 Haowen Sun,Ruikun Zheng,Haibin Huang,Chongyang Ma,Hui Huang,Ruizhen Hu
発行日 2024-05-06 13:56:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.GR パーマリンク