Emergence of In-Context Reinforcement Learning from Noise Distillation


ただし、多くのタスクでは、RL エージェントのトレーニングは実行不可能な場合がありますが、人間によるデモンストレーションを取得するのは比較的簡単です。
私たちは $AD^{\epsilon}$ を提案します。これは、ポリシーを改善せずにデモンストレーションを活用し、次善のデモンストレーターの存在下でマルチタスクのコンテキスト内学習を可能にする方法です。
私たちのアプローチは暗室と暗いキーツードア環境でテストされ、データ内で利用可能な最良のポリシーと比較して $\textbf{2}$x 以上の改善が得られました。


In-Context Reinforcement Learning is an emerging field with great potential for advancing Artificial Intelligence. Its core capability lies in generalizing to unseen tasks through interaction with the environment. To master these capabilities, an agent must be trained on specifically curated data that includes a policy improvement that an algorithm seeks to extract and then apply in context in the environment. However, for numerous tasks, training RL agents may be unfeasible, while obtaining human demonstrations can be relatively easy. Additionally, it is rare to be given the optimal policy, typically, only suboptimal demonstrations are available. We propose $AD^{\epsilon}$, a method that leverages demonstrations without policy improvement and enables multi-task in-context learning in the presence of a suboptimal demonstrator. This is achieved by artificially creating a history of incremental improvement, wherein noise is systematically introduced into the demonstrator’s policy. Consequently, each successive transition illustrates a marginally better trajectory than the previous one. Our approach was tested on the Dark Room and Dark Key-to-Door environments, resulting in over a $\textbf{2}$x improvement compared to the best available policy in the data.


著者 Ilya Zisman,Vladislav Kurenkov,Alexander Nikulin,Viacheslav Sinii,Sergey Kolesnikov
発行日 2023-12-19 15:56:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク