Doubly Mild Generalization for Offline Reinforcement Learning

要約

オフライン強化学習 (RL) は、外挿誤差と値の過大評価に悩まされます。
一般化の観点から見ると、この問題は、配布外 (OOD) アクションに対する価値関数またはポリシーの過度の一般化に起因すると考えられます。
このような一般化を緩和するために多大な努力が払われており、最近のサンプル内学習アプローチはさらに一般化を完全に回避することに成功しています。
それにもかかわらず、データセットを超えた穏やかな一般化が信頼でき、特定の条件下でパフォーマンスを向上させるために活用できることを示します。
オフライン RL で一般化を適切に活用するために、(i) マイルドなアクションの一般化と (ii) マイルドな一般化の伝播で構成される二重マイルド一般化 (DMG) を提案します。
前者は、Q 値を最大化するためにデータセットの近くにあるアクションを選択することを指します。
それでも、ブートストラップによって潜在的な誤った一般化が伝播、蓄積、悪化する可能性があります。
これを考慮して、後者の概念は、RL 学習信号の伝播を妨げることなく一般化伝播を軽減するために導入されます。
理論的には、DMG は、Oracle の一般化シナリオにおけるサンプル内最適ポリシーよりも優れたパフォーマンスを保証します。
最悪の場合の一般化でも、DMG は値の過大評価を特定のレベルで制御し、パフォーマンスの下限を設定できます。
経験的に、DMG は Gym-MuJoCo の移動タスクと困難な AntMaze タスクにわたって最先端のパフォーマンスを達成します。
さらに、DMG は一般化の両方の側面における柔軟性の恩恵を受け、オフラインからオンライン学習へのシームレスな移行を享受し、強力なオンライン微調整パフォーマンスを実現します。

要約(オリジナル)

Offline Reinforcement Learning (RL) suffers from the extrapolation error and value overestimation. From a generalization perspective, this issue can be attributed to the over-generalization of value functions or policies towards out-of-distribution (OOD) actions. Significant efforts have been devoted to mitigating such generalization, and recent in-sample learning approaches have further succeeded in entirely eschewing it. Nevertheless, we show that mild generalization beyond the dataset can be trusted and leveraged to improve performance under certain conditions. To appropriately exploit generalization in offline RL, we propose Doubly Mild Generalization (DMG), comprising (i) mild action generalization and (ii) mild generalization propagation. The former refers to selecting actions in a close neighborhood of the dataset to maximize the Q values. Even so, the potential erroneous generalization can still be propagated, accumulated, and exacerbated by bootstrapping. In light of this, the latter concept is introduced to mitigate the generalization propagation without impeding the propagation of RL learning signals. Theoretically, DMG guarantees better performance than the in-sample optimal policy in the oracle generalization scenario. Even under worst-case generalization, DMG can still control value overestimation at a certain level and lower bound the performance. Empirically, DMG achieves state-of-the-art performance across Gym-MuJoCo locomotion tasks and challenging AntMaze tasks. Moreover, benefiting from its flexibility in both generalization aspects, DMG enjoys a seamless transition from offline to online learning and attains strong online fine-tuning performance.

arxiv情報

著者 Yixiu Mao,Qi Wang,Yun Qu,Yuhang Jiang,Xiangyang Ji
発行日 2024-11-13 06:34:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク