要約
強化学習(RL)を通じて安全な自律システムを進めるには、パフォーマンスを評価し、方法を分析し、エージェントの能力を評価するために堅牢なベンチマークが必要です。
人間は主に具体化された視覚的知覚に依存して、周囲と安全にナビゲートして相互作用し、RLエージェントにとって貴重な能力となっています。
ただし、既存のビジョンベースの3Dベンチマークは、単純なナビゲーションタスクのみを考慮してください。
この欠点に対処するために、\ textbf {hasard}を紹介します。これは、多様で複雑なタスクのスイートであり、$ \ textbf {ha} $ rness $ \ textbf {sa} $ fe $ \ textbf {r} $ lを$ \ textbf {d}を備えています。
Hasardは、3つの難易度と2つのアクションスペースを備えています。
一般的なベースライン方法の経験的評価は、ベンチマークの複雑さ、独自の課題、報酬コストのトレードオフを示しています。
トップダウンヒートマップでのトレーニング中の視覚化エージェントナビゲーションは、メソッドの学習プロセスに関する洞察を提供します。
難易度を越えて徐々にトレーニングすると、暗黙の学習カリキュラムが提供されます。
Hasardは、エゴセントリックビジョンベースの学習のみを対象とする最初の安全なRLベンチマークであり、現在および将来の安全なRLメソッドの潜在的および境界を探るための費用対効果の高い洞察に満ちた方法を提供します。
環境とベースラインの実装は、https://sites.google.com/view/hasard-bench/でオープンソースを受けています。
要約(オリジナル)
Advancing safe autonomous systems through reinforcement learning (RL) requires robust benchmarks to evaluate performance, analyze methods, and assess agent competencies. Humans primarily rely on embodied visual perception to safely navigate and interact with their surroundings, making it a valuable capability for RL agents. However, existing vision-based 3D benchmarks only consider simple navigation tasks. To address this shortcoming, we introduce \textbf{HASARD}, a suite of diverse and complex tasks to $\textbf{HA}$rness $\textbf{SA}$fe $\textbf{R}$L with $\textbf{D}$oom, requiring strategic decision-making, comprehending spatial relationships, and predicting the short-term future. HASARD features three difficulty levels and two action spaces. An empirical evaluation of popular baseline methods demonstrates the benchmark’s complexity, unique challenges, and reward-cost trade-offs. Visualizing agent navigation during training with top-down heatmaps provides insight into a method’s learning process. Incrementally training across difficulty levels offers an implicit learning curriculum. HASARD is the first safe RL benchmark to exclusively target egocentric vision-based learning, offering a cost-effective and insightful way to explore the potential and boundaries of current and future safe RL methods. The environments and baseline implementations are open-sourced at https://sites.google.com/view/hasard-bench/.
arxiv情報
著者 | Tristan Tomilin,Meng Fang,Mykola Pechenizkiy |
発行日 | 2025-03-11 10:05:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google