要約
環境とのさらなる相互作用なしに静的データセットでのみ動作するオフライン強化学習(RL)は、安全で有望な制御ポリシーを学習するための魅力的な代替手段を提供します。
一般的な方法は通常、Q値過大評価の問題を軽減する保守的な政策を学びますが、それをやり過ぎる傾向があり、過度に保守的な政策につながります。
さらに、彼らは固定制約ですべてのサンプルを等しく最適化し、保守的なレベルをきめんった方法で制御する微妙な能力を欠いています。
その結果、この制限によりパフォーマンスが低下します。
United Wayで上記の2つの課題に対処するために、Qラーニング(ACL-QL)における適応保守的レベルのフレームワークを提案します。これにより、Q値が軽度の範囲で制限され、各状態アクションペアの保守的なレベルでの適応制御が可能になります。
学習したQ機能の保守的なレベルが軽度の範囲で制限される可能性のある条件と、各遷移を適応的に最適化する条件を理論的に分析します。
理論分析に動機付けられて、2つの学習可能な適応体重関数を使用して各遷移で保守的なレベルを制御する新しいアルゴリズムACL-QLを提案します。
その後、単調さの損失と代理損失を設計して、適応体重関数、Q機能、およびポリシーネットワークをトレーニングします。
一般的に使用されるD4RLベンチマークでACL-QLを評価し、既存のオフラインDRLベースラインと比較して有効性と最先端のパフォーマンスを説明するために広範なアブレーション研究を実施します。
要約(オリジナル)
Offline Reinforcement Learning (RL), which operates solely on static datasets without further interactions with the environment, provides an appealing alternative to learning a safe and promising control policy. The prevailing methods typically learn a conservative policy to mitigate the problem of Q-value overestimation, but it is prone to overdo it, leading to an overly conservative policy. Moreover, they optimize all samples equally with fixed constraints, lacking the nuanced ability to control conservative levels in a fine-grained manner. Consequently, this limitation results in a performance decline. To address the above two challenges in a united way, we propose a framework, Adaptive Conservative Level in Q-Learning (ACL-QL), which limits the Q-values in a mild range and enables adaptive control on the conservative level over each state-action pair, i.e., lifting the Q-values more for good transitions and less for bad transitions. We theoretically analyze the conditions under which the conservative level of the learned Q-function can be limited in a mild range and how to optimize each transition adaptively. Motivated by the theoretical analysis, we propose a novel algorithm, ACL-QL, which uses two learnable adaptive weight functions to control the conservative level over each transition. Subsequently, we design a monotonicity loss and surrogate losses to train the adaptive weight functions, Q-function, and policy network alternatively. We evaluate ACL-QL on the commonly used D4RL benchmark and conduct extensive ablation studies to illustrate the effectiveness and state-of-the-art performance compared to existing offline DRL baselines.
arxiv情報
著者 | Kun Wu,Yinuo Zhao,Zhiyuan Xu,Zhengping Che,Chengxiang Yin,Chi Harold Liu,Feiferi Feng,Jian Tang |
発行日 | 2025-03-17 06:25:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google