TextIM: Part-aware Interactive Motion Synthesis from Text


この研究では、パーツレベルのセマンティクスの正確な調整に焦点を当て、TEXT 駆動の人間のインタラクティブ モーションを合成するための新しいフレームワークである TextIM を提案します。
これらの問題に対処するために、TextIM は分離された条件付き拡散フレームワークを利用して、インタラクティブな動きと、テキストの説明からの対応する意味論的な意図との間の詳細な調整を強化します。
TextIM は、相互作用するパーツの洗練された動きに導かれて、これらの動きを一貫した全身の動きにさらに拡張します。
トレーニングと評価のために、HUMANML3D からインタラクティブ モーションを慎重に選択して再ラベル付けし、特殊なデータセットを開発しました。
実験結果は、TextIM が意味的に正確な人間のインタラクティブ モーションを生成し、変形可能で動的に変化するオブジェクトとのインタラクションを含む、さまざまなシナリオにおける合成されたインタラクティブ モーションのリアリズムと適用性を大幅に向上させることを示しています。


In this work, we propose TextIM, a novel framework for synthesizing TEXT-driven human Interactive Motions, with a focus on the precise alignment of part-level semantics. Existing methods often overlook the critical roles of interactive body parts and fail to adequately capture and align part-level semantics, resulting in inaccuracies and even erroneous movement outcomes. To address these issues, TextIM utilizes a decoupled conditional diffusion framework to enhance the detailed alignment between interactive movements and corresponding semantic intents from textual descriptions. Our approach leverages large language models, functioning as a human brain, to identify interacting human body parts and to comprehend interaction semantics to generate complicated and subtle interactive motion. Guided by the refined movements of the interacting parts, TextIM further extends these movements into a coherent whole-body motion. We design a spatial coherence module to complement the entire body movements while maintaining consistency and harmony across body parts using a part graph convolutional network. For training and evaluation, we carefully selected and re-labeled interactive motions from HUMANML3D to develop a specialized dataset. Experimental results demonstrate that TextIM produces semantically accurate human interactive motions, significantly enhancing the realism and applicability of synthesized interactive motions in diverse scenarios, even including interactions with deformable and dynamically changing objects.


著者 Siyuan Fan,Bo Du,Xiantao Cai,Bo Peng,Longling Sun
発行日 2024-08-06 17:08:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク