ReLIC: A Recipe for 64k Steps of In-Context Reinforcement Learning for Embodied AI

要約

知的な具現化エージェントは、長い経験の履歴を意思決定に統合することで、新しいシナリオに素早く適応する必要がある。例えば、不慣れな家にいるロボットは、最初はタスクに必要なオブジェクトの位置がわからず、非効率的な作業を行うかもしれない。しかし、経験を重ねるにつれて、環境のレイアウトを学習し、物体の位置を記憶するようになり、新しいタスクをより効率的にこなせるようになるはずだ。このような新しいタスクへの迅速な適応を可能にするために、我々は、具現化エージェントのためのコンテキスト内強化学習(RL)の新しいアプローチであるReLICを紹介する。ReLICを用いることで、エージェントは、RLによって自己生成された経験によって訓練されながら、64,000ステップのコンテキスト内経験を用いて、完全な注意を払って新しい環境に適応することができる。我々は、「部分更新」と呼ばれるオンポリシーRLのための新しいポリシー更新スキームと、具現化エージェントのための長い観測履歴の効果的な利用を可能にするSink-KVメカニズムを提案することによって、これを達成する。我々の手法は、具現化された多オブジェクトナビゲーションタスクにおいて、未見の家屋への適応において様々なメタRLベースラインを凌駕する。さらに、ReLICは、専門家の実演による訓練を受けていないにもかかわらず、数ショット模倣学習が可能であることを見出した。また、ReLICの包括的な分析を行い、大規模なRL訓練、提案する部分更新スキーム、Sink-KVの組み合わせが効果的な文脈内学習に不可欠であることを強調する。ReLICと我々の全ての実験のコードは https://github.com/aielawady/relic にある。

要約(オリジナル)

Intelligent embodied agents need to quickly adapt to new scenarios by integrating long histories of experience into decision-making. For instance, a robot in an unfamiliar house initially wouldn’t know the locations of objects needed for tasks and might perform inefficiently. However, as it gathers more experience, it should learn the layout of its environment and remember where objects are, allowing it to complete new tasks more efficiently. To enable such rapid adaptation to new tasks, we present ReLIC, a new approach for in-context reinforcement learning (RL) for embodied agents. With ReLIC, agents are capable of adapting to new environments using 64,000 steps of in-context experience with full attention while being trained through self-generated experience via RL. We achieve this by proposing a novel policy update scheme for on-policy RL called ‘partial updates” as well as a Sink-KV mechanism that enables effective utilization of a long observation history for embodied agents. Our method outperforms a variety of meta-RL baselines in adapting to unseen houses in an embodied multi-object navigation task. In addition, we find that ReLIC is capable of few-shot imitation learning despite never being trained with expert demonstrations. We also provide a comprehensive analysis of ReLIC, highlighting that the combination of large-scale RL training, the proposed partial updates scheme, and the Sink-KV are essential for effective in-context learning. The code for ReLIC and all our experiments is at https://github.com/aielawady/relic

arxiv情報

著者 Ahmad Elawady,Gunjan Chhablani,Ram Ramrakhya,Karmesh Yadav,Dhruv Batra,Zsolt Kira,Andrew Szot
発行日 2024-10-03 17:58:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク