要約
インコンテキスト学習 (ICL) は、コンテキスト内でいくつかのサンプルを観察することによって新しいタスクを学習するモデルの機能です。
この機能は NLP で広く普及していますが、最近では強化学習 (RL) 設定でも観察されています。
ただし、以前のインコンテキスト RL 方法では、エージェントのコンテキスト内にエピソード全体が必要です。
複雑な環境では通常、報酬がまばらな長いエピソードが発生することを考えると、これらの方法は短いエピソードの単純な環境に限定されます。
これらの課題に対処するために、検索拡張決定トランスフォーマー (RA-DT) を導入します。
RA-DT は外部メモリ メカニズムを採用して過去の経験を保存し、そこから現在の状況に関連するサブ軌道のみを取得します。
RA-DT の検索コンポーネントはトレーニングを必要とせず、完全にドメインに依存しません。
グリッドワールド環境、ロボット工学シミュレーション、手続き的に生成されたビデオ ゲームにおける RA-DT の機能を評価します。
グリッドワールドでは、RA-DT はコンテキストの長さの一部のみを使用しながら、ベースラインよりも優れたパフォーマンスを発揮します。
さらに、複雑な環境における現在のインコンテキスト RL 手法の限界を明らかにし、将来の方向性について議論します。
将来の研究を促進するために、検討されている 4 つの環境のデータセットをリリースします。
要約(オリジナル)
In-context learning (ICL) is the ability of a model to learn a new task by observing a few exemplars in its context. While prevalent in NLP, this capability has recently also been observed in Reinforcement Learning (RL) settings. Prior in-context RL methods, however, require entire episodes in the agent’s context. Given that complex environments typically lead to long episodes with sparse rewards, these methods are constrained to simple environments with short episodes. To address these challenges, we introduce Retrieval-Augmented Decision Transformer (RA-DT). RA-DT employs an external memory mechanism to store past experiences from which it retrieves only sub-trajectories relevant for the current situation. The retrieval component in RA-DT does not require training and can be entirely domain-agnostic. We evaluate the capabilities of RA-DT on grid-world environments, robotics simulations, and procedurally-generated video games. On grid-worlds, RA-DT outperforms baselines, while using only a fraction of their context length. Furthermore, we illuminate the limitations of current in-context RL methods on complex environments and discuss future directions. To facilitate future research, we release datasets for four of the considered environments.
arxiv情報
| 著者 | Thomas Schmied,Fabian Paischer,Vihang Patil,Markus Hofmarcher,Razvan Pascanu,Sepp Hochreiter |
| 発行日 | 2024-10-09 17:15:30+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google