要約
深層強化学習 (DRL) は、未知の環境での自律ナビゲーションを可能にするために使用されます。
ほとんどの研究は完璧なセンサー データを前提としていますが、現実世界の環境には自然および人工のセンサー ノイズや拒否が含まれる可能性があります。
ここでは、設定可能なセンサー拒否効果を備えたナビゲーション タスクにおける、よく使用されている DRL アルゴリズムと新しい DRL アルゴリズムのベンチマークを示します。
特に、さまざまな DRL 手法 (モデルフリー PPO とモデルベースの DreamerV3 など) がセンサー拒否によってどのような影響を受けるかを比較することに興味があります。
DreamerV3 は、動的な目標を持つ視覚的なエンドツーエンドのナビゲーション タスクにおいて他のメソッドよりも優れたパフォーマンスを示しますが、他のメソッドはこれを学習できません。
さらに、DreamerV3 は通常、センサーが拒否された環境では他の方法よりも優れたパフォーマンスを発揮します。
堅牢性を向上させるために、敵対的トレーニングを使用し、拒否された環境でのパフォーマンスの向上を実証しますが、これには通常、バニラ環境ではパフォーマンスのコストが伴います。
私たちは、さまざまな DRL 手法のこのベンチマークと敵対的トレーニングの使用が、不確実で拒否されたセンサー読み取り値に対処できる、より精巧なナビゲーション戦略の開発の出発点となることを期待しています。
要約(オリジナル)
Deep Reinforcement learning (DRL) is used to enable autonomous navigation in unknown environments. Most research assume perfect sensor data, but real-world environments may contain natural and artificial sensor noise and denial. Here, we present a benchmark of both well-used and emerging DRL algorithms in a navigation task with configurable sensor denial effects. In particular, we are interested in comparing how different DRL methods (e.g. model-free PPO vs. model-based DreamerV3) are affected by sensor denial. We show that DreamerV3 outperforms other methods in the visual end-to-end navigation task with a dynamic goal – and other methods are not able to learn this. Furthermore, DreamerV3 generally outperforms other methods in sensor-denied environments. In order to improve robustness, we use adversarial training and demonstrate an improved performance in denied environments, although this generally comes with a performance cost on the vanilla environments. We anticipate this benchmark of different DRL methods and the usage of adversarial training to be a starting point for the development of more elaborate navigation strategies that are capable of dealing with uncertain and denied sensor readings.
arxiv情報
著者 | Mariusz Wisniewski,Paraskevas Chatzithanos,Weisi Guo,Antonios Tsourdos |
発行日 | 2024-10-18 17:14:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google