A Survey on Offline Reinforcement Learning: Taxonomy, Review, and Open Problems

要約

タイトル:オフライン強化学習に関する調査:分類、レビュー、そして未解決問題

要約:
– 深層学習の広範な普及により、強化学習(RL)はより複雑な問題を解決し、例えば観察結果から複雑なゲームをプレイしたり、人間との対話を行ったり、ロボットエージェントを制御することが可能となった。
– しかし、環境との相互作用のコストや危険性が高いため、RLで利用できない領域がまだ存在する。オフラインRLは、事前に収集された相互作用の静的データセットだけから学習する手法であり、大規模で多様なトレーニングデータセットから方策を抽出することが可能になった。
– オンラインRLよりも効果的なオフラインRLアルゴリズムには、教育、医療、ロボット工学などの現実世界のアプリケーションにとって特に魅力的なものがある。
– 本研究では、オフラインRL手法を分類するための統一された分類法に貢献する。さらに、統一された記法を用いた最新のアルゴリズムの包括的なレビュー、および既存のベンチマークの特性と欠点についてもレビューする。さらに、各手法の性能と手法の種類について、さまざまなデータセットの特性に対する要約図を提供し、研究者がプロブレムに最適なアルゴリズムの種類を決定し、有望な手法のクラスを特定することができるツールを提供する。
– 最後に、この急速に成長する分野の未解決問題や将来の研究方向について貢献する。

要約(オリジナル)

With the widespread adoption of deep learning, reinforcement learning (RL) has experienced a dramatic increase in popularity, scaling to previously intractable problems, such as playing complex games from pixel observations, sustaining conversations with humans, and controlling robotic agents. However, there is still a wide range of domains inaccessible to RL due to the high cost and danger of interacting with the environment. Offline RL is a paradigm that learns exclusively from static datasets of previously collected interactions, making it feasible to extract policies from large and diverse training datasets. Effective offline RL algorithms have a much wider range of applications than online RL, being particularly appealing for real-world applications, such as education, healthcare, and robotics. In this work, we contribute with a unifying taxonomy to classify offline RL methods. Furthermore, we provide a comprehensive review of the latest algorithmic breakthroughs in the field using a unified notation as well as a review of existing benchmarks’ properties and shortcomings. Additionally, we provide a figure that summarizes the performance of each method and class of methods on different dataset properties, equipping researchers with the tools to decide which type of algorithm is best suited for the problem at hand and identify which classes of algorithms look the most promising. Finally, we provide our perspective on open problems and propose future research directions for this rapidly growing field.

arxiv情報

著者 Rafael Figueiredo Prudencio,Marcos R. O. A. Maximo,Esther Luna Colombini
発行日 2023-04-19 00:30:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク