要約
効果的な動作プリミティブは、視覚や言語入力などのタスクを定義するパラメータに基づいて、通常は人間のデモンストレーションから収集される軌道の豊富なレパートリーを符号化して生成できる必要があります。
一連の軌跡が低次元の非線形部分空間上にあると仮定する動き多様体仮説に基づく最近の手法は、データセット サイズの制限や軌跡データの高次元性などの課題に対処していますが、複雑なタスクの動きを捉えるのに苦労することがよくあります。
依存関係、つまり、タスクの変化に応じて動きの分布が大幅に変化する場合。
これに対処するために、モーション多様体のトレーニングをタスク条件付き分布から切り離すフレームワークであるモーション多様体フロー プリミティブ (MMFP) を導入します。
具体的には、最先端の条件付きディープ生成モデルであるフロー マッチング モデルを使用して、学習されたモーション多様体の潜在座標空間内のタスク条件付き分布を学習します。
実験は言語ガイドによる軌道生成タスクで行われ、多対多のテキストとモーションの対応により複雑なタスクとモーションの依存関係が導入され、既存の手法に対する MMFP の優位性が強調されます。
要約(オリジナル)
Effective movement primitives should be capable of encoding and generating a rich repertoire of trajectories — typically collected from human demonstrations — conditioned on task-defining parameters such as vision or language inputs. While recent methods based on the motion manifold hypothesis, which assumes that a set of trajectories lies on a lower-dimensional nonlinear subspace, address challenges such as limited dataset size and the high dimensionality of trajectory data, they often struggle to capture complex task-motion dependencies, i.e., when motion distributions shift drastically with task variations. To address this, we introduce Motion Manifold Flow Primitives (MMFP), a framework that decouples the training of the motion manifold from task-conditioned distributions. Specifically, we employ flow matching models, state-of-the-art conditional deep generative models, to learn task-conditioned distributions in the latent coordinate space of the learned motion manifold. Experiments are conducted on language-guided trajectory generation tasks, where many-to-many text-motion correspondences introduce complex task-motion dependencies, highlighting MMFP’s superiority over existing methods.
arxiv情報
著者 | Yonghyeon Lee,Byeongho Lee,Seungyeon Kim,Frank C. Park |
発行日 | 2025-01-08 06:56:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google