Towards Sample-Efficiency and Generalization of Transfer and Inverse Reinforcement Learning: A Comprehensive Literature Review

要約

強化学習 (RL) は機械学習のサブドメインであり、主に、環境から受け取る報酬を通じて意思決定環境と対話してその行動を改善する学習エージェントによる逐次的な意思決定の問題の解決に関係します。
ただし、この学習パラダイムは、大量のデータを収集する必要があるため時間がかかることでよく知られており、RL はサンプルの非効率性と汎化の困難に悩まされます。
さらに、意思決定問題の複数の要望間のトレードオフを考慮した明示的な報酬関数の構築は、多くの場合、骨の折れる作業です。
これらの課題は最近、転移学習および逆強化学習 (T-IRL) を利用して解決されています。
この点に関して、この論文は、T-IRL を通じたサンプル効率の実現と RL アルゴリズムの一般化についての包括的なレビューに専念します。
RL の簡単な紹介に続いて、基本的な T-IRL 手法が紹介され、各研究分野の最新の進歩が広範囲にレビューされています。
私たちの調査結果は、最近の研究成果の大部分が、転移学習スキームの下でソースドメインからターゲットドメインに知識を効率的に伝達するためのヒューマンインザループ戦略とシミュレーション・トゥ・リアル戦略を利用することで、前述の課題に対処していることを示しています。

IRL 構造の下では、経験の移行回数が少ないトレーニング スキームと、そのようなフレームワークをマルチエージェントおよびマルチインテンションの問題に拡張することが、近年の研究者の優先事項となっています。

要約(オリジナル)

Reinforcement learning (RL) is a sub-domain of machine learning, mainly concerned with solving sequential decision-making problems by a learning agent that interacts with the decision environment to improve its behavior through the reward it receives from the environment. This learning paradigm is, however, well-known for being time-consuming due to the necessity of collecting a large amount of data, making RL suffer from sample inefficiency and difficult generalization. Furthermore, the construction of an explicit reward function that accounts for the trade-off between multiple desiderata of a decision problem is often a laborious task. These challenges have been recently addressed utilizing transfer and inverse reinforcement learning (T-IRL). In this regard, this paper is devoted to a comprehensive review of realizing the sample efficiency and generalization of RL algorithms through T-IRL. Following a brief introduction to RL, the fundamental T-IRL methods are presented and the most recent advancements in each research field have been extensively reviewed. Our findings denote that a majority of recent research works have dealt with the aforementioned challenges by utilizing human-in-the-loop and sim-to-real strategies for the efficient transfer of knowledge from source domains to the target domain under the transfer learning scheme. Under the IRL structure, training schemes that require a low number of experience transitions and extension of such frameworks to multi-agent and multi-intention problems have been the priority of researchers in recent years.

arxiv情報

著者 Hossein Hassani,Roozbeh Razavi-Far,Mehrdad Saif,Liang Lin
発行日 2024-11-15 15:18:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク