要約
深層強化学習エージェントはしばしば壊れやすいが、人間は様々なシナリオに適応的かつ柔軟に対応できる。このギャップを埋めるために、我々は生物学的にインスパイアされたナビゲーションフレームワークであるEDENを発表する。EDENは、学習された嗅内神経様グリッド細胞表現と強化学習を統合し、自律的なナビゲーションを可能にする。哺乳類の嗅内海馬システムに着想を得たEDENは、視覚データとモーションセンサーデータを用いて、エージェントが経路統合とベクトルベースのナビゲーションを行うことを可能にする。EDENの中核にあるグリッドセルエンコーダは、自心運動を周期的な空間コードに変換し、低次元で解釈可能な位置の埋め込みを生成する。生の感覚入力からこれらのアクティベーションを生成するために、軽量シミュレータMiniWorldでのフィデューシャルマーカー検出と、高忠実度シミュレータGazeboでのDINOベースの視覚的特徴を組み合わせる。これらの空間表現は、Proximal Policy Optimization (PPO)で学習されたポリシーの入力となり、動的な目標指向ナビゲーションを可能にする。我々は、ラピッドプロトタイピングのためのMiniWorldと、現実的な物理学と知覚ノイズを提供するGazeboの両方でEDENを評価した。EDENは、生の状態入力(例:位置、速度)や標準的な畳み込み画像エンコーダを用いたベースラインエージェントと比較して、単純なシナリオでは99%の成功率を達成し、より効率的で信頼性の高いステップワイズナビゲーションにより、オクルーデッドパスのある複雑なフロアプランでは94%以上の成功率を達成した。さらに、グランドトゥルースアクティベーションの代替として、視覚とモーションセンサーデータから周期的なグリッド状パターンの開発を可能にする、トレーニング可能なグリッドセルエンコーダを発表する。この研究は、ロボット工学における生物学的根拠のある空間知能への一歩であり、スケーラブルな展開のために神経ナビゲーション原理と強化学習の橋渡しをするものである。
要約(オリジナル)
Deep reinforcement learning agents are often fragile while humans remain adaptive and flexible to varying scenarios. To bridge this gap, we present EDEN, a biologically inspired navigation framework that integrates learned entorhinal-like grid cell representations and reinforcement learning to enable autonomous navigation. Inspired by the mammalian entorhinal-hippocampal system, EDEN allows agents to perform path integration and vector-based navigation using visual and motion sensor data. At the core of EDEN is a grid cell encoder that transforms egocentric motion into periodic spatial codes, producing low-dimensional, interpretable embeddings of position. To generate these activations from raw sensory input, we combine fiducial marker detections in the lightweight MiniWorld simulator and DINO-based visual features in the high-fidelity Gazebo simulator. These spatial representations serve as input to a policy trained with Proximal Policy Optimization (PPO), enabling dynamic, goal-directed navigation. We evaluate EDEN in both MiniWorld, for rapid prototyping, and Gazebo, which offers realistic physics and perception noise. Compared to baseline agents using raw state inputs (e.g., position, velocity) or standard convolutional image encoders, EDEN achieves a 99% success rate, within the simple scenarios, and >94% within complex floorplans with occluded paths with more efficient and reliable step-wise navigation. In addition, as a replacement of ground truth activations, we present a trainable Grid Cell encoder enabling the development of periodic grid-like patterns from vision and motion sensor data, emulating the development of such patterns within biological mammals. This work represents a step toward biologically grounded spatial intelligence in robotics, bridging neural navigation principles with reinforcement learning for scalable deployment.
arxiv情報
著者 | Mikolaj Walczak,Romina Aalishah,Wyatt Mackey,Brittany Story,David L. Boothe Jr.,Nicholas Waytowich,Xiaomin Lin,Tinoosh Mohsenin |
発行日 | 2025-06-03 16:28:33+00:00 |
arxivサイト | arxiv_id(pdf) |