Generalizable Reinforcement Learning with Biologically Inspired Hyperdimensional Occupancy Grid Maps for Exploration and Goal-Directed Path Planning

要約

リアルタイムの自律システムでは、マルチレイヤー計算フレームワークを利用して、知覚、目標発見、パス計画などの重要なタスクを実行します。
従来の方法は、占有グリッドマッピング(OGM)を使用して知覚を実装し、環境を確率的情報で離散化したセルに分割します。
この古典的なアプローチは十分に確立されており、目標発見やパス計画アルゴリズムなどの下流プロセスの構造化された入力を提供します。
最近のアプローチは、一般的に高次元コンピューティングとして知られているベクターシンボリックアーキテクチャ(VSA)として知られる生物学的に触発された数学フレームワークを活用して、高次元空間で確率的OGMを実行します。
このアプローチであるVSA-OGMは、Spiking Neural Networksとのネイティブ互換性を提供し、VSA-OGMを従来のOGMに代わる潜在的な神経形態の代替品として配置します。
ただし、大規模な統合では、確立されたOGMメソッドと比較して、下流タスクに対するVSA-GMのパフォーマンスへの影響を評価することが不可欠です。
この研究では、従来のOGMアプローチに対するVSA-OGMの有効性、ベイジアンヒルベルトマップ(BHM)、強化学習ベースの目標発見とパス計画フレームワーク、制御された探査環境とF1 20チャレンジに触発された自律運転シナリオを越えて、

我々の結果は、VSA-OGMが、目に見えない環境でのパフォーマンスを約47%改善しながら、単一およびマルチセナリオのトレーニング構成全体で同等の学習パフォーマンスを維持していることを示しています。
これらの調査結果は、BHMを介してVSA-GMでトレーニングされたポリシーネットワークの一般化の増加を強調し、多様な環境での実際の展開の可能性を強化しています。

要約(オリジナル)

Real-time autonomous systems utilize multi-layer computational frameworks to perform critical tasks such as perception, goal finding, and path planning. Traditional methods implement perception using occupancy grid mapping (OGM), segmenting the environment into discretized cells with probabilistic information. This classical approach is well-established and provides a structured input for downstream processes like goal finding and path planning algorithms. Recent approaches leverage a biologically inspired mathematical framework known as vector symbolic architectures (VSA), commonly known as hyperdimensional computing, to perform probabilistic OGM in hyperdimensional space. This approach, VSA-OGM, provides native compatibility with spiking neural networks, positioning VSA-OGM as a potential neuromorphic alternative to conventional OGM. However, for large-scale integration, it is essential to assess the performance implications of VSA-OGM on downstream tasks compared to established OGM methods. This study examines the efficacy of VSA-OGM against a traditional OGM approach, Bayesian Hilbert Maps (BHM), within reinforcement learning based goal finding and path planning frameworks, across a controlled exploration environment and an autonomous driving scenario inspired by the F1-Tenth challenge. Our results demonstrate that VSA-OGM maintains comparable learning performance across single and multi-scenario training configurations while improving performance on unseen environments by approximately 47%. These findings highlight the increased generalizability of policy networks trained with VSA-OGM over BHM, reinforcing its potential for real-world deployment in diverse environments.

arxiv情報

著者 Shay Snyder,Ryan Shea,Andrew Capodieci,David Gorsich,Maryam Parsa
発行日 2025-02-13 15:10:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.NE, cs.RO パーマリンク