要約
普及モデルの最近の進歩により、身体化された AI エージェントとロボット工学の研究に新たな道が開かれました。
複雑なロボットの移動とスキルでは大きな成果が得られているにもかかわらず、モバイル操作(ナビゲーションと操作の調整を必要とする機能)は、生成型 AI 技術にとって依然として課題です。
これは主に、高次元のアクション空間、拡張されたモーション軌道、および周囲の環境との相互作用によるものです。
この論文では、ロボット中心の 3D スキャンに基づいてモバイル操作のための調整された効率的な全身運動軌道を直接生成する、拡散ベースのシーン条件付き生成モデルである M2Diffuser を紹介します。
M2Diffuser はまず、専門プランナーによって提供されたモバイル操作の軌跡から軌跡レベルの分布を学習します。
重要なのは、推論プロセス中にコストとエネルギー関数としてモデル化された物理的制約とタスク目標に柔軟に対応できる最適化モジュールが組み込まれていることです。
これにより、完全に微分可能な方法で、各ノイズ除去ステップでの物理的な違反と実行エラーを削減できます。
20 を超えるシーンにわたる 3 種類のモバイル操作タスクのベンチマークを通じて、M2Diffuser が最先端のニューラル プランナーを上回り、生成された軌道を現実世界のロボットに正常に転送できることを実証しました。
私たちの評価は、従来の計画および学習ベースのロボット手法の一般化を強化する生成 AI の可能性を強調すると同時に、安全で堅牢な実行のために物理的制約を強制するという重要な役割も強調しています。
要約(オリジナル)
Recent advances in diffusion models have opened new avenues for research into embodied AI agents and robotics. Despite significant achievements in complex robotic locomotion and skills, mobile manipulation-a capability that requires the coordination of navigation and manipulation-remains a challenge for generative AI techniques. This is primarily due to the high-dimensional action space, extended motion trajectories, and interactions with the surrounding environment. In this paper, we introduce M2Diffuser, a diffusion-based, scene-conditioned generative model that directly generates coordinated and efficient whole-body motion trajectories for mobile manipulation based on robot-centric 3D scans. M2Diffuser first learns trajectory-level distributions from mobile manipulation trajectories provided by an expert planner. Crucially, it incorporates an optimization module that can flexibly accommodate physical constraints and task objectives, modeled as cost and energy functions, during the inference process. This enables the reduction of physical violations and execution errors at each denoising step in a fully differentiable manner. Through benchmarking on three types of mobile manipulation tasks across over 20 scenes, we demonstrate that M2Diffuser outperforms state-of-the-art neural planners and successfully transfers the generated trajectories to a real-world robot. Our evaluations underscore the potential of generative AI to enhance the generalization of traditional planning and learning-based robotic methods, while also highlighting the critical role of enforcing physical constraints for safe and robust execution.
arxiv情報
著者 | Sixu Yan,Zeyu Zhang,Muzhi Han,Zaijin Wang,Qi Xie,Zhitian Li,Zhehan Li,Hangxin Liu,Xinggang Wang,Song-Chun Zhu |
発行日 | 2024-10-15 08:49:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google