要約
動的なオープンワールド環境でのナビゲーションの学習は、ロボットにとって重要でありながら挑戦的なスキルです。
ほとんどの以前の方法は、高価な現実世界のデモンストレーションから正確なローカリゼーションとマッピングまたは学習に依存しています。
このホワイトペーパーでは、シミュレーションのみで訓練されたエンドツーエンドのフレームワークであるナビゲーション拡散ポリシー(NAVDP)を提案し、多様な現実世界環境で異なる実施形態にゼロショット転送を可能にすることができます。
NAVDPのネットワークの重要な要素は、拡散ベースの軌道生成と、共有ポリシートランスからエンコードされたローカル観測トークンのみに条件付けられた軌跡選択の批評家機能の組み合わせです。
シミュレーションにおけるグローバル環境の特権情報を考えると、拡散ポリシーを訓練し、対照的なネガティブサンプルで批評家の価値関数ターゲットを策定するために、良質のデモンストレーションを拡大します。
デモンストレーション生成アプローチは、1日あたり約2,500の軌道/GPU、実際のデータ収集よりも20 $ \ Times $が効率的であり、1244シーンで363.2kmの軌跡を備えた大規模なナビゲーションデータセットをもたらします。
このシミュレーションデータセットでトレーニングされたNAVDPは、多様な屋内および屋外環境で、四足動物、車輪付き、およびヒューマノイドロボットで最先端のパフォーマンスと一貫した優れた一般化能力を実現します。
さらに、ガウスのスプラッティングを使用して、ドメイン内からシムへの微調整を行い、SIMからリアルのギャップをさらに橋渡しする予備の試みを提示します。
実験では、このような実際のデータを追加すると、一般化能力を損なうことなく、成功率を30 \%改善できることが示されています。
要約(オリジナル)
Learning navigation in dynamic open-world environments is an important yet challenging skill for robots. Most previous methods rely on precise localization and mapping or learn from expensive real-world demonstrations. In this paper, we propose the Navigation Diffusion Policy (NavDP), an end-to-end framework trained solely in simulation and can zero-shot transfer to different embodiments in diverse real-world environments. The key ingredient of NavDP’s network is the combination of diffusion-based trajectory generation and a critic function for trajectory selection, which are conditioned on only local observation tokens encoded from a shared policy transformer. Given the privileged information of the global environment in simulation, we scale up the demonstrations of good quality to train the diffusion policy and formulate the critic value function targets with contrastive negative samples. Our demonstration generation approach achieves about 2,500 trajectories/GPU per day, 20$\times$ more efficient than real-world data collection, and results in a large-scale navigation dataset with 363.2km trajectories across 1244 scenes. Trained with this simulation dataset, NavDP achieves state-of-the-art performance and consistently outstanding generalization capability on quadruped, wheeled, and humanoid robots in diverse indoor and outdoor environments. In addition, we present a preliminary attempt at using Gaussian Splatting to make in-domain real-to-sim fine-tuning to further bridge the sim-to-real gap. Experiments show that adding such real-to-sim data can improve the success rate by 30\% without hurting its generalization capability.
arxiv情報
著者 | Wenzhe Cai,Jiaqi Peng,Yuqiang Yang,Yujian Zhang,Meng Wei,Hanqing Wang,Yilun Chen,Tai Wang,Jiangmiao Pang |
発行日 | 2025-05-13 16:20:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google