要約
動的障害物回避 (DOA) は、海、空、陸のいずれで動作するかに関係なく、あらゆる自動運転車にとって基本的な課題です。
この論文では、教師あり学習と強化学習 (RL) を組み合わせて DOA タスクを処理するための 2 段階のアーキテクチャを提案します。
最初のステップでは、リカレント ニューラル ネットワークを使用して障害物の衝突リスク (CR) を推定するデータ駆動型アプローチを導入します。リカレント ニューラル ネットワークは教師ありでトレーニングされ、非線形の障害物の動きに対する堅牢性を提供します。
2 番目のステップでは、これらの CR 推定値を RL エージェントの観察空間に組み込み、状況認識を強化します。
複数の障害物の中を移動する必要がある困難な環境でさまざまな RL エージェントをトレーニングすることで、2 段階のアプローチの威力を実証します。
私たちのアーキテクチャはあらゆる障害物のダイナミクスに適していますが、障害物の非線形の動きは確率過程と周期的パターンに基づいて例示的にモデル化されています。
実験では、CR メトリクスを観測空間に統合すると、報酬の観点からパフォーマンスが 2 倍になり、これは考慮された環境での衝突数が半分になることに相当することが明らかになりました。
また、海上交通と現実世界の船舶の軌跡データに基づいて、RL 環境で提案を検証するための一般化実験も実行します。
さらに、アーキテクチャのパフォーマンス向上は、適用される RL アルゴリズムとは無関係であることを示します。
要約(オリジナル)
Dynamic obstacle avoidance (DOA) is a fundamental challenge for any autonomous vehicle, independent of whether it operates in sea, air, or land. This paper proposes a two-step architecture for handling DOA tasks by combining supervised and reinforcement learning (RL). In the first step, we introduce a data-driven approach to estimate the collision risk (CR) of an obstacle using a recurrent neural network, which is trained in a supervised fashion and offers robustness to non-linear obstacle movements. In the second step, we include these CR estimates into the observation space of an RL agent to increase its situational awareness. We illustrate the power of our two-step approach by training different RL agents in a challenging environment that requires to navigate amid multiple obstacles. The non-linear movements of obstacles are exemplarily modeled based on stochastic processes and periodic patterns, although our architecture is suitable for any obstacle dynamics. The experiments reveal that integrating our CR metrics into the observation space doubles the performance in terms of reward, which is equivalent to halving the number of collisions in the considered environment. We also perform a generalization experiment to validate the proposal in an RL environment based on maritime traffic and real-world vessel trajectory data. Furthermore, we show that the architecture’s performance improvement is independent of the applied RL algorithm.
arxiv情報
著者 | Fabian Hart,Martin Waltz,Ostap Okhrin |
発行日 | 2024-08-19 08:04:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google