MotionCLR: Motion Generation and Training-free Editing via Understanding Attention Mechanisms

要約

この研究では、人間のモーション生成のインタラクティブな編集の問題を詳しく調査します。
以前のモーション拡散モデルには、単語レベルのテキストとモーションの対応関係の明示的なモデリングと優れた説明可能性が欠けており、そのため、きめ細かい編集能力が制限されていました。
この問題に対処するために、注意メカニズムの CLeaR モデリングを備えた、注意ベースの運動拡散モデル、つまり MotionCLR を提案します。
技術的には、MotionCLR は、それぞれ自己注意と交差注意によるモダリティ内およびクロスモダリティのインタラクションをモデル化します。
より具体的には、セルフ アテンション メカニズムは、フレーム間の連続的な類似性を測定することを目的としており、動きの特徴の順序に影響を与えます。
対照的に、クロスアテンション メカニズムは、きめ細かい単語シーケンスの対​​応を見つけて、モーション シーケンス内の対応するタイムステップをアクティブにするように機能します。
これらの重要な特性に基づいて、モーション (非) 強調、インプレース モーション置換、サンプルベースのモーション生成など、アテンション マップの操作を介したシンプルかつ効果的なモーション編集手法の多用途セットを開発します。
注意メカニズムの説明可能性について、我々はさらに、注意マップを介してアクションカウントと接地動作生成能力の可能性を探ります。
私たちの実験結果は、私たちの方法が優れた説明可能性を備えた優れた生成および編集能力を備えていることを示しています。

要約(オリジナル)

This research delves into the problem of interactive editing of human motion generation. Previous motion diffusion models lack explicit modeling of the word-level text-motion correspondence and good explainability, hence restricting their fine-grained editing ability. To address this issue, we propose an attention-based motion diffusion model, namely MotionCLR, with CLeaR modeling of attention mechanisms. Technically, MotionCLR models the in-modality and cross-modality interactions with self-attention and cross-attention, respectively. More specifically, the self-attention mechanism aims to measure the sequential similarity between frames and impacts the order of motion features. By contrast, the cross-attention mechanism works to find the fine-grained word-sequence correspondence and activate the corresponding timesteps in the motion sequence. Based on these key properties, we develop a versatile set of simple yet effective motion editing methods via manipulating attention maps, such as motion (de-)emphasizing, in-place motion replacement, and example-based motion generation, etc. For further verification of the explainability of the attention mechanism, we additionally explore the potential of action-counting and grounded motion generation ability via attention maps. Our experimental results show that our method enjoys good generation and editing ability with good explainability.

arxiv情報

著者 Ling-Hao Chen,Wenxun Dai,Xuan Ju,Shunlin Lu,Lei Zhang
発行日 2024-10-24 17:59:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク