TextIM: Part-aware Interactive Motion Synthesis from Text

要約

この研究では、パーツレベルのセマンティクスの正確な調整に焦点を当て、TEXT 駆動の人間のインタラクティブ モーションを合成するための新しいフレームワークである TextIM を提案します。
既存の方法では、インタラクティブな身体パーツの重要な役割が見落とされ、パーツレベルのセマンティクスを適切に把握して調整することができず、その結果、不正確な動きや、さらには誤った動きの結果が生じます。
これらの問題に対処するために、TextIM は分離された条件付き拡散フレームワークを利用して、インタラクティブな動きと、テキストの説明からの対応する意味論的な意図との間の詳細な調整を強化します。
私たちのアプローチは、人間の脳として機能する大規模な言語モデルを活用して、相互作用する人体の部位を特定し、相互作用のセマンティクスを理解して、複雑かつ微妙な相互作用の動きを生成します。
TextIM は、相互作用するパーツの洗練された動きに導かれて、これらの動きを一貫した全身の動きにさらに拡張します。
パーツグラフ畳み込みネットワークを使用して、体の各部分にわたる一貫性と調和を維持しながら、体全体の動きを補完する空間コヒーレンスモジュールを設計します。
トレーニングと評価のために、HUMANML3D からインタラクティブ モーションを慎重に選択して再ラベル付けし、特殊なデータセットを開発しました。
実験結果は、TextIM が意味的に正確な人間のインタラクティブ モーションを生成し、変形可能で動的に変化するオブジェクトとのインタラクションを含む、さまざまなシナリオにおける合成されたインタラクティブ モーションのリアリズムと適用性を大幅に向上させることを示しています。

要約(オリジナル)

In this work, we propose TextIM, a novel framework for synthesizing TEXT-driven human Interactive Motions, with a focus on the precise alignment of part-level semantics. Existing methods often overlook the critical roles of interactive body parts and fail to adequately capture and align part-level semantics, resulting in inaccuracies and even erroneous movement outcomes. To address these issues, TextIM utilizes a decoupled conditional diffusion framework to enhance the detailed alignment between interactive movements and corresponding semantic intents from textual descriptions. Our approach leverages large language models, functioning as a human brain, to identify interacting human body parts and to comprehend interaction semantics to generate complicated and subtle interactive motion. Guided by the refined movements of the interacting parts, TextIM further extends these movements into a coherent whole-body motion. We design a spatial coherence module to complement the entire body movements while maintaining consistency and harmony across body parts using a part graph convolutional network. For training and evaluation, we carefully selected and re-labeled interactive motions from HUMANML3D to develop a specialized dataset. Experimental results demonstrate that TextIM produces semantically accurate human interactive motions, significantly enhancing the realism and applicability of synthesized interactive motions in diverse scenarios, even including interactions with deformable and dynamically changing objects.

arxiv情報

著者 Siyuan Fan,Bo Du,Xiantao Cai,Bo Peng,Longling Sun
発行日 2024-08-06 17:08:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク