Offline Actor-Critic Reinforcement Learning Scales to Large Models

要約

オフラインのアクター批判的強化学習は、トランスフォーマーなどの大規模なモデルにスケールでき、教師あり学習と同様のスケーリング則に従うことを示します。
私たちは、オフラインのアクタークリティック アルゴリズムが、132 の連続制御タスクで最適ではない動作とエキスパートの動作の両方を含む大規模なデータセットでのマルチタスク トレーニングにおいて、強力な教師付き動作クローン作成ベースラインを上回るパフォーマンスを発揮できることを発見しました。
パーシーバーベースのアクター批評家モデルを導入し、オフライン RL をセルフおよびクロスアテンション モジュールで機能させるために必要な主要なモデル機能を説明します。
全体として、私たちは次のことを発見しました: i) シンプルなオフラインのアクター批評家アルゴリズムは、現在支配的な行動クローニングのパラダイムから徐々に離れていくための自然な選択であり、ii) オフライン RL を介して、多くのドメインを同時に習得するマルチタスク ポリシーを学習することが可能です
、次善のデモンストレーションまたは自己生成データからの実際のロボットタスクを含む。

要約(オリジナル)

We show that offline actor-critic reinforcement learning can scale to large models – such as transformers – and follows similar scaling laws as supervised learning. We find that offline actor-critic algorithms can outperform strong, supervised, behavioral cloning baselines for multi-task training on a large dataset containing both sub-optimal and expert behavior on 132 continuous control tasks. We introduce a Perceiver-based actor-critic model and elucidate the key model features needed to make offline RL work with self- and cross-attention modules. Overall, we find that: i) simple offline actor critic algorithms are a natural choice for gradually moving away from the currently predominant paradigm of behavioral cloning, and ii) via offline RL it is possible to learn multi-task policies that master many domains simultaneously, including real robotics tasks, from sub-optimal demonstrations or self-generated data.

arxiv情報

著者 Jost Tobias Springenberg,Abbas Abdolmaleki,Jingwei Zhang,Oliver Groth,Michael Bloesch,Thomas Lampe,Philemon Brakel,Sarah Bechtle,Steven Kapturowski,Roland Hafner,Nicolas Heess,Martin Riedmiller
発行日 2024-02-08 10:29:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク