Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone

要約

意思決定ポリシーの学習における最近の進歩は、主に模倣学習を介した表現力豊かなポリシー モデルのトレーニングに主に起因していると考えられます。
模倣学習では専門家以外のデータが破棄されますが、強化学習 (RL) では最適ではないデータからも学習できます。
ただし、新しいポリシー クラスの RL トレーニングをインスタンス化すると、別の課題が生じることがよくあります。ほとんどの深い RL 機構は、ポリシー クラスとバックボーンを前提として共同開発されており、ポリシー クラスが変更されるとパフォーマンスが低下します。
たとえば、SAC はガウス ポリシーに対して低分散の再パラメータ化ポリシー勾配を利用しますが、これは拡散ポリシーに対して不安定であり、自己回帰カテゴリ ポリシーに対して扱いにくいです。
この問題に対処するために、私たちは、さまざまなアーキテクチャとサイズで複数のポリシー クラスを効果的にトレーニングできる、ポリシーに依存しない RL (PA-RL) と呼ばれるオフライン RL とオンライン微調整アプローチを開発しました。
私たちは、「最適化された」アクションに適用される限り、普遍的な教師あり学習損失が RL のポリシー改善ステップを置き換えることができるという基本的なアイデアを構築します。
これらの最適化されたアクションを取得するには、まずベース ポリシーから複数のアクションをサンプリングし、グローバル最適化 (つまり、Q 関数を使用して複数のアクション サンプルを再ランク付け) とローカル最適化 (つまり、アクション サンプルに対して勾配ステップを実行) を実行します。
これらの候補者に対する批判を最大限に高めます。
PA-RL は、完全にアクタークリティカル RL を介して、さまざまなサイズの自己回帰トークンまたは連続アクション出力のいずれかを使用して、拡散ポリシーとトランスフォーマー ポリシーを微調整することを可能にします。
さらに、PA-RL は、既存のオフライン RL およびオンライン微調整方法と比較して、パフォーマンスとサンプル効率を最大 2 倍向上させます。
オンライン RL 微調整アルゴリズムである Cal-QL を使用して、7B ジェネラリスト ロボット ポリシーである OpenVLA を自律的に微調整することに成功し、現実世界では 40 分で 40% から 70% に改善することに成功した最初の結果を示します。

要約(オリジナル)

Recent advances in learning decision-making policies can largely be attributed to training expressive policy models, largely via imitation learning. While imitation learning discards non-expert data, reinforcement learning (RL) can still learn from suboptimal data. However, instantiating RL training of a new policy class often presents a different challenge: most deep RL machinery is co-developed with assumptions on the policy class and backbone, resulting in poor performance when the policy class changes. For instance, SAC utilizes a low-variance reparameterization policy gradient for Gaussian policies, but this is unstable for diffusion policies and intractable for autoregressive categorical policies. To address this issue, we develop an offline RL and online fine-tuning approach called policy-agnostic RL (PA-RL) that can effectively train multiple policy classes, with varying architectures and sizes. We build off the basic idea that a universal supervised learning loss can replace the policy improvement step in RL, as long as it is applied on ‘optimized’ actions. To obtain these optimized actions, we first sample multiple actions from a base policy, and run global optimization (i.e., re-ranking multiple action samples using the Q-function) and local optimization (i.e., running gradient steps on an action sample) to maximize the critic on these candidates. PA-RL enables fine-tuning diffusion and transformer policies with either autoregressive tokens or continuous action outputs, at different sizes, entirely via actor-critic RL. Moreover, PA-RL improves the performance and sample-efficiency by up to 2 times compared to existing offline RL and online fine-tuning methods. We show the first result that successfully fine-tunes OpenVLA, a 7B generalist robot policy, autonomously with Cal-QL, an online RL fine-tuning algorithm, improving from 40% to 70% in the real world in 40 minutes.

arxiv情報

著者 Max Sobol Mark,Tian Gao,Georgia Gabriela Sampaio,Mohan Kumar Srirama,Archit Sharma,Chelsea Finn,Aviral Kumar
発行日 2024-12-09 17:28:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク