POPGym: Benchmarking Partially Observable Reinforcement Learning

要約

強化学習(RL)の実世界での応用は、しばしば部分的に観測可能であるため、メモリを必要とします。それにもかかわらず、部分観測可能性は現代のRLベンチマークやライブラリではまだほとんど無視されています。本論文では、Partially Observable Process Gym (POPGym)を紹介する。このライブラリは、(1)複数の困難を伴う15の部分観測可能な環境の多様なコレクションと、(2)単一のRLライブラリとしては最多の、13のメモリモデルベースラインの実装を含む2部構成のライブラリである。既存の部分観測可能なベンチマークは、計算コストが高く、POMDPの一種に過ぎない3Dビジュアルナビゲーションに固執する傾向があります。対照的に、POPGym環境は多様で、より小さな観測値を生成し、より少ないメモリを使用し、しばしば民生用GPUで2時間以内のトレーニングで収束する。私たちは、一般的なRLlibフレームワークの上に高レベルのメモリAPIとメモリベースラインを実装し、様々な学習アルゴリズム、探索戦略、分散学習パラダイムとプラグアンドプレイで互換性を持たせています。POPGym を用いて、RL メモリモデル間の最大規模の比較を実行しました。POPGym は、https://github.com/proroklab/popgym で入手可能です。

要約(オリジナル)

Real world applications of Reinforcement Learning (RL) are often partially observable, thus requiring memory. Despite this, partial observability is still largely ignored by contemporary RL benchmarks and libraries. We introduce Partially Observable Process Gym (POPGym), a two-part library containing (1) a diverse collection of 15 partially observable environments, each with multiple difficulties and (2) implementations of 13 memory model baselines — the most in a single RL library. Existing partially observable benchmarks tend to fixate on 3D visual navigation, which is computationally expensive and only one type of POMDP. In contrast, POPGym environments are diverse, produce smaller observations, use less memory, and often converge within two hours of training on a consumer-grade GPU. We implement our high-level memory API and memory baselines on top of the popular RLlib framework, providing plug-and-play compatibility with various training algorithms, exploration strategies, and distributed training paradigms. Using POPGym, we execute the largest comparison across RL memory models to date. POPGym is available at https://github.com/proroklab/popgym.

arxiv情報

著者 Steven Morad,Ryan Kortvelesy,Matteo Bettini,Stephan Liwicki,Amanda Prorok
発行日 2023-03-03 11:25:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク