要約
インコンテキスト強化学習は、人工知能を進歩させる大きな可能性を秘めた新興分野です。
その中核となる機能は、環境との相互作用を通じて目に見えないタスクを一般化することにあります。
これらの機能を習得するには、アルゴリズムが抽出して環境内のコンテキストに適用しようとするポリシーの改善を含む、特別に厳選されたデータに基づいてエージェントをトレーニングする必要があります。
ただし、多くのタスクでは、RL エージェントのトレーニングは実行不可能な場合がありますが、人間によるデモンストレーションを取得するのは比較的簡単です。
さらに、最適なポリシーが提供されることはまれであり、通常は次善のデモンストレーションのみが利用可能です。
私たちは $AD^{\epsilon}$ を提案します。これは、ポリシーを改善せずにデモンストレーションを活用し、次善のデモンストレーターの存在下でマルチタスクのコンテキスト内学習を可能にする方法です。
これは、ノイズがデモンストレーターのポリシーに体系的に導入される、漸進的改善の歴史を人為的に作成することによって達成されます。
その結果、連続する各遷移は、前の遷移よりわずかに良好な軌道を示します。
私たちのアプローチは暗室と暗いキーツードア環境でテストされ、データ内で利用可能な最良のポリシーと比較して $\textbf{2}$x 以上の改善が得られました。
要約(オリジナル)
In-Context Reinforcement Learning is an emerging field with great potential for advancing Artificial Intelligence. Its core capability lies in generalizing to unseen tasks through interaction with the environment. To master these capabilities, an agent must be trained on specifically curated data that includes a policy improvement that an algorithm seeks to extract and then apply in context in the environment. However, for numerous tasks, training RL agents may be unfeasible, while obtaining human demonstrations can be relatively easy. Additionally, it is rare to be given the optimal policy, typically, only suboptimal demonstrations are available. We propose $AD^{\epsilon}$, a method that leverages demonstrations without policy improvement and enables multi-task in-context learning in the presence of a suboptimal demonstrator. This is achieved by artificially creating a history of incremental improvement, wherein noise is systematically introduced into the demonstrator’s policy. Consequently, each successive transition illustrates a marginally better trajectory than the previous one. Our approach was tested on the Dark Room and Dark Key-to-Door environments, resulting in over a $\textbf{2}$x improvement compared to the best available policy in the data.
arxiv情報
著者 | Ilya Zisman,Vladislav Kurenkov,Alexander Nikulin,Viacheslav Sinii,Sergey Kolesnikov |
発行日 | 2023-12-19 15:56:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google