要約
我々は、シーケンスモデルを用いて汎化、長期記憶、メタ学習の課題に取り組む、コンテキスト内強化学習(RL)エージェントであるAMAGOを紹介する。最近の研究により、オフポリシー学習により、リカレントポリシーを用いたインコンテキストRLが実現可能であることが示されている。それにもかかわらず、これらのアプローチは、エージェントのメモリ容量、計画ホライズン、およびモデルサイズに重要なボトルネックを作ることによって、大規模なチューニングを必要とし、スケーラビリティを制限する。AMAGOは、エンドツーエンドのRLと並行して、ロールアウト全体にわたって長いシーケンスのTransformerを訓練するために、オフポリシーのインコンテクストアプローチを再検討し、再設計する。我々のエージェントは独自のスケーラビリティを持ち、様々な問題に適用可能である。メタRLと長期記憶の領域において、その強力な性能を実証的に示す。また、AMAGOの疎な報酬とオフポリシーデータに注目することで、文脈内学習を困難な探索を伴うゴール条件付き問題に拡張することができる。AMAGOは、新しい後知恵再ラベル付けスキームと組み合わせることで、エージェントが手続き的に生成された環境で多くの可能な命令を完了する、以前は困難であったオープンワールドドメインのカテゴリを解決することができる。我々は、3つのゴール条件付き領域で我々のエージェントを評価し、個々の改良がどのように汎化されたポリシーを生み出すかを研究する。
要約(オリジナル)
We introduce AMAGO, an in-context Reinforcement Learning (RL) agent that uses sequence models to tackle the challenges of generalization, long-term memory, and meta-learning. Recent works have shown that off-policy learning can make in-context RL with recurrent policies viable. Nonetheless, these approaches require extensive tuning and limit scalability by creating key bottlenecks in agents’ memory capacity, planning horizon, and model size. AMAGO revisits and redesigns the off-policy in-context approach to successfully train long-sequence Transformers over entire rollouts in parallel with end-to-end RL. Our agent is uniquely scalable and applicable to a wide range of problems. We demonstrate its strong performance empirically in meta-RL and long-term memory domains. AMAGO’s focus on sparse rewards and off-policy data also allows in-context learning to extend to goal-conditioned problems with challenging exploration. When combined with a novel hindsight relabeling scheme, AMAGO can solve a previously difficult category of open-world domains, where agents complete many possible instructions in procedurally generated environments. We evaluate our agent on three goal-conditioned domains and study how its individual improvements connect to create a generalist policy.
arxiv情報
著者 | Jake Grigsby,Linxi Fan,Yuke Zhu |
発行日 | 2023-12-04 18:51:54+00:00 |
arxivサイト | arxiv_id(pdf) |