Foundation Reinforcement Learning: towards Embodied Generalist Agents with Foundation Prior Assistance

要約

最近、NLP で実証されているように、インターネット規模のデータからの大規模な事前トレーニングがジェネラリスト モデルの構築の鍵であることが示されています。
身体化されたジェネラリストエージェントを構築するために、私たちと他の多くの研究者は、そのような事前の基礎も不可欠な要素であると仮説を立てています。
ただし、これらの具体化された基礎事前分布を表す適切な具体的な形式は何なのか、またそれらを下流のタスクでどのように使用する必要があるのか​​は不明です。
この論文では、基礎ポリシー、価値、成功報酬から構成される、直感的で効果的な具現化事前分布のセットを提案します。
提案された事前確率は、目標条件付き MDP に基づいています。
それらの有効性を検証するために、Foundation Actor-Critic (FAC) と呼ばれる、事前の支援を受けたアクター-クリティック手法をインスタンス化します。
このフレームワークは、探索、学習、強化を具体化された基礎事前学習に完全に依存しているため、このフレームワークを基礎強化学習 (FRL) と名付けています。
FRL の利点は 3 つあります。
(1) サンプル効率が良い。
基礎事前学習を使用すると、FAC は従来の RL よりも大幅に速く学習します。
メタワールドに関する私たちの評価では、FAC が 200,000 フレーム未満で 7/8 タスクの成功率 100% を達成できることが証明されました。これは、100 万フレームで慎重に手動で設計された報酬を使用するベースライン手法を上回ります。
(2) ノイズの多い事前分布に強い。
私たちの方法は、具体化された基礎モデルにおける避けられないノイズを許容します。
我々は、FAC が激しいノイズや量子化エラーの下でもうまく機能することを示します。
(3) 人間の介入を最小限に抑える: FAC は、人間が指定した高密度の報酬や遠隔操作デモの提供を必要とせず、基礎の事前分布から完全に学習します。
したがって、FAC は簡単にスケールアップできます。
私たちは、FRL フレームワークにより、将来のロボットが人間の介入なしに物理世界で自律的に探索および学習できるようになると信じています。
要約すると、私たちが提案する FRL は、身体化されたジェネラリスト エージェントの達成に向けた、新しくて強力な学習パラダイムです。

要約(オリジナル)

Recently, people have shown that large-scale pre-training from internet-scale data is the key to building generalist models, as witnessed in NLP. To build embodied generalist agents, we and many other researchers hypothesize that such foundation prior is also an indispensable component. However, it is unclear what is the proper concrete form to represent those embodied foundation priors and how they should be used in the downstream task. In this paper, we propose an intuitive and effective set of embodied priors that consist of foundation policy, value, and success reward. The proposed priors are based on the goal-conditioned MDP. To verify their effectiveness, we instantiate an actor-critic method assisted by the priors, called Foundation Actor-Critic (FAC). We name our framework as Foundation Reinforcement Learning (FRL), since it completely relies on embodied foundation priors to explore, learn and reinforce. The benefits of FRL are threefold. (1) Sample efficient. With foundation priors, FAC learns significantly faster than traditional RL. Our evaluation on the Meta-World has proved that FAC can achieve 100% success rates for 7/8 tasks under less than 200k frames, which outperforms the baseline method with careful manual-designed rewards under 1M frames. (2) Robust to noisy priors. Our method tolerates the unavoidable noise in embodied foundation models. We show that FAC works well even under heavy noise or quantization errors. (3) Minimal human intervention: FAC completely learns from the foundation priors, without the need of human-specified dense reward, or providing teleoperated demos. Thus, FAC can be easily scaled up. We believe our FRL framework could enable the future robot to autonomously explore and learn without human intervention in the physical world. In summary, our proposed FRL is a novel and powerful learning paradigm, towards achieving embodied generalist agents.

arxiv情報

著者 Weirui Ye,Yunsheng Zhang,Mengchen Wang,Shengjie Wang,Xianfan Gu,Pieter Abbeel,Yang Gao
発行日 2023-10-04 07:56:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク