要約
オフライン強化学習 (ORL) は、継続的な環境相互作用の必要性を排除することで、従来の強化学習 (RL) の高いサンプルの複雑さを軽減する有望なアプローチです。
ORL は、事前に収集された遷移のデータセットを利用するため、現代の AAA ゲームなど、過剰な環境クエリによってトレーニング時間が増加し、効率が低下するタスクへの RL の適用範囲を拡大します。
この文書では、ORL 研究のための新しい環境である OfflineMania を紹介します。
象徴的な TrackMania シリーズからインスピレーションを受け、Unity 3D ゲーム エンジンを使用して開発されました。
この環境は、最適なナビゲーションを通じてトラックを完走することを目的とするシングル エージェント レーシング ゲームをシミュレートします。
ORL のパフォーマンスを評価するためのさまざまなデータセットを提供しています。
これらのデータセットは、さまざまな能力とさまざまなサイズのポリシーから作成され、アルゴリズムの開発と評価のための挑戦的なテストベッドを提供することを目的としています。
さらに、当社の環境を使用して、さまざまなオンライン RL、ORL、およびオフラインからオンライン RL へのハイブリッド アプローチの一連のベースラインを確立します。
要約(オリジナル)
Offline Reinforcement Learning (ORL) is a promising approach to reduce the high sample complexity of traditional Reinforcement Learning (RL) by eliminating the need for continuous environmental interactions. ORL exploits a dataset of pre-collected transitions and thus expands the range of application of RL to tasks in which the excessive environment queries increase training time and decrease efficiency, such as in modern AAA games. This paper introduces OfflineMania a novel environment for ORL research. It is inspired by the iconic TrackMania series and developed using the Unity 3D game engine. The environment simulates a single-agent racing game in which the objective is to complete the track through optimal navigation. We provide a variety of datasets to assess ORL performance. These datasets, created from policies of varying ability and in different sizes, aim to offer a challenging testbed for algorithm development and evaluation. We further establish a set of baselines for a range of Online RL, ORL, and hybrid Offline to Online RL approaches using our environment.
arxiv情報
| 著者 | Girolamo Macaluso,Alessandro Sestini,Andrew D. Bagdanov | 
| 発行日 | 2024-07-12 16:44:03+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
