要約
ロボットナビゲーションの最近の進歩、特に強化学習(RL)などのエンドツーエンドの学習アプローチにより、驚くべき効率と有効性が示されています。
しかし、ナビゲーションの成功は、明示的であろうと暗黙的であろうと、マッピングと計画の2つの重要な機能に依然として依存しています。
古典的なアプローチでは、明示的なマッピングパイプラインを使用して、プランナーのコヒーレントマップフレームに自我中心の観測を登録します。
対照的に、エンドツーエンドの学習は、多くの場合、電流と過去の観測を計画のために潜在的な空間に融合させる再発性ニューラルネットワーク(RNN)を通じて、これを暗黙的に達成します。
LSTMやGRUなどのアーキテクチャは時間的依存関係をキャプチャしますが、私たちの調査結果は、効果的な空間的暗記を実行できないという重要な制限を明らかにしています。
このスキルは、さまざまな視点からシーケンシャルな観察を変換して統合して、下流の計画をサポートする空間表現を構築するために不可欠です。
これに対処するために、空間的に強化された再発ユニット(SRU)を提案します。これは、既存のRNNのシンプルで効果的な変更であり、空間的な記憶能力を強化するように設計されています。
SRUを使用して注意ベースのアーキテクチャを紹介し、単一の前向きステレオカメラを使用して長距離ナビゲーションを可能にします。
RLを介した堅牢なエンドツーエンドの再発トレーニングを確保するために、正規化技術が採用されています。
実験結果は、私たちのアプローチが既存のRNNと比較して長距離ナビゲーションが23.5%改善することを示しています。
さらに、SRUメモリを使用すると、明示的なマッピングとメモリモジュールでRLベースラインを上回り、長距離マッピングと記憶を必要とする多様な環境で29.6%の改善を達成します。
最後に、合成深度データで大規模な事前削除を活用して、多様で複雑な現実世界の環境へのゼロショット転送を可能にすることにより、SIMからリアルのギャップに対処します。
要約(オリジナル)
Recent advancements in robot navigation, especially with end-to-end learning approaches like reinforcement learning (RL), have shown remarkable efficiency and effectiveness. Yet, successful navigation still relies on two key capabilities: mapping and planning, whether explicit or implicit. Classical approaches use explicit mapping pipelines to register ego-centric observations into a coherent map frame for the planner. In contrast, end-to-end learning achieves this implicitly, often through recurrent neural networks (RNNs) that fuse current and past observations into a latent space for planning. While architectures such as LSTM and GRU capture temporal dependencies, our findings reveal a key limitation: their inability to perform effective spatial memorization. This skill is essential for transforming and integrating sequential observations from varying perspectives to build spatial representations that support downstream planning. To address this, we propose Spatially-Enhanced Recurrent Units (SRUs), a simple yet effective modification to existing RNNs, designed to enhance spatial memorization capabilities. We introduce an attention-based architecture with SRUs, enabling long-range navigation using a single forward-facing stereo camera. Regularization techniques are employed to ensure robust end-to-end recurrent training via RL. Experimental results show our approach improves long-range navigation by 23.5% compared to existing RNNs. Furthermore, with SRU memory, our method outperforms the RL baseline with explicit mapping and memory modules, achieving a 29.6% improvement in diverse environments requiring long-horizon mapping and memorization. Finally, we address the sim-to-real gap by leveraging large-scale pretraining on synthetic depth data, enabling zero-shot transfer to diverse and complex real-world environments.
arxiv情報
著者 | Fan Yang,Per Frivik,David Hoeller,Chen Wang,Cesar Cadena,Marco Hutter |
発行日 | 2025-06-06 11:35:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google