要約
主に空間的知覚の制限のため、多様な環境で一般化可能で正確なロボット操作を達成することは重要な課題のままです。
以前の模倣学習アプローチは進歩していますが、生のRGB入力と手作りの機能への依存は、しばしばさまざまな照明、閉塞、およびオブジェクト条件の下で過剰適合と貧弱な3D推論につながります。
この論文では、信頼できる把握予測で堅牢なマルチモーダル認識を結びつける統一されたフレームワークを提案します。
私たちのアーキテクチャは、ドメインランダム化された増強、単眼の深さ推定、および下流のアクションプランニングのための単一の空間表現に深さを認識した6-dofグラッププロンプトを融合します。
このエンコーディングと高レベルのタスクプロンプトを条件に、拡散ベースのポリシーは正確なアクションシーケンスをもたらし、環境変動の下で成功を把握する最大40%の改善と45%のタスク成功率を達成します。
これらの結果は、拡散ベースの模倣学習と組み合わせた空間的に接地された知覚が、汎用ロボットグラッシングのためのスケーラブルで堅牢なソリューションを提供することを示しています。
要約(オリジナル)
Achieving generalizable and precise robotic manipulation across diverse environments remains a critical challenge, largely due to limitations in spatial perception. While prior imitation-learning approaches have made progress, their reliance on raw RGB inputs and handcrafted features often leads to overfitting and poor 3D reasoning under varied lighting, occlusion, and object conditions. In this paper, we propose a unified framework that couples robust multimodal perception with reliable grasp prediction. Our architecture fuses domain-randomized augmentation, monocular depth estimation, and a depth-aware 6-DoF Grasp Prompt into a single spatial representation for downstream action planning. Conditioned on this encoding and a high-level task prompt, our diffusion-based policy yields precise action sequences, achieving up to 40% improvement in grasp success and 45% higher task success rates under environmental variation. These results demonstrate that spatially grounded perception, paired with diffusion-based imitation learning, offers a scalable and robust solution for general-purpose robotic grasping.
arxiv情報
著者 | Yiqi Huang,Travis Davies,Jiahuan Yan,Jiankai Sun,Xiang Chen,Luhui Hu |
発行日 | 2025-05-27 07:22:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google