要約
ボディモーション、手の動き、オブジェクトの動きを含む明確なオブジェクトの全身操作を統合することは、仮想人間とロボット工学の幅広いアプリケーションで重要でありながら挑戦的な作業です。
コアの課題は2つあります。
第一に、現実的な全身運動を達成するには、手と体の残りの部分との間の緊密な調整が必要です。操作中に動きが相互依存しているためです。
第二に、明確なオブジェクト操作には通常、高度の自由度が含まれ、より高い精度を要求し、多くの場合、可動部品を作動させるために特定の領域に指を配置する必要があります。
これらの課題に対処するために、新しい調整された拡散ノイズ最適化フレームワークを提案します。
具体的には、ボディ、左手、および右手の3つの特殊な拡散モデルでノイズ空間最適化を実行し、それぞれが独自のモーションデータセットでトレーニングして一般化を改善します。
調整は、人間の運動鎖に沿った勾配の流れによって自然に現れ、世界の身体姿勢が高い忠実度を持つ手の動きの目的に応じて適応することができます。
ハンドオブジェクト相互作用の精度をさらに強化するために、ベースポイントセット(BPS)に基づいて統一表現を採用します。この場合、エンドエフェクター位置は、オブジェクトジオメトリに使用される同じBPの距離としてエンコードされます。
この統一された表現は、手と明確なオブジェクト部分の間に細粒の空間的関係をキャプチャし、結果の軌跡は拡散ノイズの最適化を導くターゲットとして機能し、非常に正確な相互作用運動を生成します。
私たちは、私たちの方法が動きの質と物理的妥当性の既存のアプローチを上回ることを実証し、オブジェクトのポーズ制御、同時歩行と操作、手のみのデータからの全身生成などのさまざまな機能を可能にすることを実証します。
要約(オリジナル)
Synthesizing whole-body manipulation of articulated objects, including body motion, hand motion, and object motion, is a critical yet challenging task with broad applications in virtual humans and robotics. The core challenges are twofold. First, achieving realistic whole-body motion requires tight coordination between the hands and the rest of the body, as their movements are interdependent during manipulation. Second, articulated object manipulation typically involves high degrees of freedom and demands higher precision, often requiring the fingers to be placed at specific regions to actuate movable parts. To address these challenges, we propose a novel coordinated diffusion noise optimization framework. Specifically, we perform noise-space optimization over three specialized diffusion models for the body, left hand, and right hand, each trained on its own motion dataset to improve generalization. Coordination naturally emerges through gradient flow along the human kinematic chain, allowing the global body posture to adapt in response to hand motion objectives with high fidelity. To further enhance precision in hand-object interaction, we adopt a unified representation based on basis point sets (BPS), where end-effector positions are encoded as distances to the same BPS used for object geometry. This unified representation captures fine-grained spatial relationships between the hand and articulated object parts, and the resulting trajectories serve as targets to guide the optimization of diffusion noise, producing highly accurate interaction motion. We conduct extensive experiments demonstrating that our method outperforms existing approaches in motion quality and physical plausibility, and enables various capabilities such as object pose control, simultaneous walking and manipulation, and whole-body generation from hand-only data.
arxiv情報
著者 | Huaijin Pi,Zhi Cen,Zhiyang Dou,Taku Komura |
発行日 | 2025-05-27 17:11:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google