IDQL: Implicit Q-Learning as an Actor-Critic Method with Diffusion Policies

要約

タイトル:IDQL:拡散ポリシーを使用したアクタークリティック法としての暗黙のQ学習

要約:

– オフラインRL方法の効果的な方法は、分布外のアクションを適切に処理することが求められます。
– 暗黙的なQ学習(IQL)は、修正されたBellmanバックアップを介してデータセットのアクションのみを使用してQ関数をトレーニングすることによってこれに対応します。
– ただし、本質的にトレーニングされたQ関数によって表される値を実際に達成するポリシーは明確ではありません。
– この論文では、IQLをアクタークリティック法として再解釈し、批評家の目標を一般化し、ビヘイビア・レギュラライズされた暗黙のアクターに接続することによって説明します。
– この一般化は、導入されたアクターが報酬最大化とビヘイビアポリシーからの発散のバランスを取る方法を示しており、特定の損失の選択がこのトレードオフの性質を決定することを示しています。
– 特に、このアクターは複雑で多様な特性を示す可能性があり、利点加重回帰(AWR)で使用される条件付きガウスアクターの適合に問題があることを示唆しています。
– 代わりに、我々は拡散パラメータ化されたビヘイビアポリシーからサンプルを取り、批評家から計算された重みを使用して意図したポリシーを重要性サンプリングすることを提案します。
– 私たちは、一般的なIQL批評家をポリシー抽出方法と組み合わせた暗黙的な拡散Q学習(IDQL)を紹介しています。
– IDQLはIQLの実装の容易さを維持しながら、以前のオフラインRL方法を上回り、ハイパーパラメータの堅牢性を示します。
– コードはhttps://github.com/philippe-eecs/IDQLで利用可能です。

要約(オリジナル)

Effective offline RL methods require properly handling out-of-distribution actions. Implicit Q-learning (IQL) addresses this by training a Q-function using only dataset actions through a modified Bellman backup. However, it is unclear which policy actually attains the values represented by this implicitly trained Q-function. In this paper, we reinterpret IQL as an actor-critic method by generalizing the critic objective and connecting it to a behavior-regularized implicit actor. This generalization shows how the induced actor balances reward maximization and divergence from the behavior policy, with the specific loss choice determining the nature of this tradeoff. Notably, this actor can exhibit complex and multimodal characteristics, suggesting issues with the conditional Gaussian actor fit with advantage weighted regression (AWR) used in prior methods. Instead, we propose using samples from a diffusion parameterized behavior policy and weights computed from the critic to then importance sampled our intended policy. We introduce Implicit Diffusion Q-learning (IDQL), combining our general IQL critic with the policy extraction method. IDQL maintains the ease of implementation of IQL while outperforming prior offline RL methods and demonstrating robustness to hyperparameters. Code is available at https://github.com/philippe-eecs/IDQL.

arxiv情報

著者 Philippe Hansen-Estruch,Ilya Kostrikov,Michael Janner,Jakub Grudzien Kuba,Sergey Levine
発行日 2023-04-20 18:04:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG パーマリンク