How Do I Do That? Synthesizing 3D Hand Motion and Contacts for Everyday Interactions

要約

単一のRGBビュー、アクションテキスト、およびオブジェクト上の3D接点ポイントを入力として、3Dハンドモーションを予測し、マップ(または相互作用の軌跡)を接触するという新しい問題に取り組みます。
私たちのアプローチは、(1)相互作用コードブック:ハンドポーズと接触点の潜在的なコードブックを学習するVQVAEモデル、相互作用の軌跡を効果的にトークン化する、(2)相互作用予測因子:トランスデコダーモジュール:テスト時間入力からのインデックスタイム入力からの相互作用の軌跡を予測して、学習したコードブックからの潜在的な価格を繰り返します。
モデルをトレーニングするために、3Dハンドポーズを抽出し、多様なホロスアシストデータセットから軌跡に接触するデータエンジンを開発します。
既存の作業よりも2.5〜10倍大きいベンチマークで、観察されたオブジェクトと相互作用の多様性の観点からモデルを評価し、オブジェクトカテゴリ、アクションカテゴリ、タスク、シーン全体でモデルの一般化をテストします。
実験結果は、すべての設定にわたるトランスと拡散ベースラインに対するアプローチの有効性を示しています。

要約(オリジナル)

We tackle the novel problem of predicting 3D hand motion and contact maps (or Interaction Trajectories) given a single RGB view, action text, and a 3D contact point on the object as input. Our approach consists of (1) Interaction Codebook: a VQVAE model to learn a latent codebook of hand poses and contact points, effectively tokenizing interaction trajectories, (2) Interaction Predictor: a transformer-decoder module to predict the interaction trajectory from test time inputs by using an indexer module to retrieve a latent affordance from the learned codebook. To train our model, we develop a data engine that extracts 3D hand poses and contact trajectories from the diverse HoloAssist dataset. We evaluate our model on a benchmark that is 2.5-10X larger than existing works, in terms of diversity of objects and interactions observed, and test for generalization of the model across object categories, action categories, tasks, and scenes. Experimental results show the effectiveness of our approach over transformer & diffusion baselines across all settings.

arxiv情報

著者 Aditya Prakash,Benjamin Lundell,Dmitry Andreychuk,David Forsyth,Saurabh Gupta,Harpreet Sawhney
発行日 2025-04-16 17:48:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク