要約
現在の人間のモーション合成フレームワークは、グローバルなアクションの説明に依存しており、モーション理解と生成能力の両方を制限するモダリティギャップを作成します。
「実行」などの単一の粗い説明は、速度、四肢の位置、運動のダイナミクスのバリエーションなどの詳細をキャプチャできず、テキストとモーションモダリティの曖昧さにつながります。
この課題に対処するために、\ textBf {kinmo}を導入します。これは、運動学的グループの動きとその相互作用を組み込むことでグローバルなアクションを超えて拡張する階層的な記述可能なモーション表現に基づいて構築された統一されたフレームワークです。
この分解のための高品質で微粒の説明を生成するために、自動アノテーションパイプラインを設計し、Kinmoデータセットになります。
これらの構造化された説明を活用するために、階層的なテキストモーションアラインメントを提案し、追加のモーションの詳細を統合することにより空間的理解を改善します。
さらに、粗からファインの生成手順を導入して、強化された空間理解を活用してモーション合成を改善します。
実験結果は、キンモが動きの理解を大幅に改善することを示しており、テキストモーションの検索パフォーマンスの向上と、より微細なモーション生成と編集機能を可能にすることによって実証されています。
プロジェクトページ:https://andypinxinliu.github.io/kinmo
要約(オリジナル)
Current human motion synthesis frameworks rely on global action descriptions, creating a modality gap that limits both motion understanding and generation capabilities. A single coarse description, such as “run’, fails to capture details like variations in speed, limb positioning, and kinematic dynamics, leading to ambiguities between text and motion modalities. To address this challenge, we introduce \textbf{KinMo}, a unified framework built on a hierarchical describable motion representation that extends beyond global action by incorporating kinematic group movements and their interactions. We design an automated annotation pipeline to generate high-quality, fine-grained descriptions for this decomposition, resulting in the KinMo dataset. To leverage these structured descriptions, we propose Hierarchical Text-Motion Alignment, improving spatial understanding by integrating additional motion details. Furthermore, we introduce a coarse-to-fine generation procedure to leverage enhanced spatial understanding to improve motion synthesis. Experimental results show that KinMo significantly improves motion understanding, demonstrated by enhanced text-motion retrieval performance and enabling more fine-grained motion generation and editing capabilities. Project Page: https://andypinxinliu.github.io/KinMo
arxiv情報
著者 | Pengfei Zhang,Pinxin Liu,Hyeongwoo Kim,Pablo Garrido,Bindita Chaudhuri |
発行日 | 2025-03-11 14:29:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google