ACL-QL: Adaptive Conservative Level in Q-Learning for Offline Reinforcement Learning

要約

オフライン強化学習 (RL) は、環境とのさらなる対話なしに静的データセットのみで動作し、安全で有望な制御ポリシーを学習するための魅力的な代替手段を提供します。
一般に普及している手法は、Q 値の過大評価の問題を軽減するために保守的なポリシーを学習しますが、過度に保守的なポリシーにつながる傾向があります。
さらに、固定された制約を使用してすべてのサンプルを均等に最適化するため、保守的なレベルをきめ細かく制御する微妙な機能が欠けています。
その結果、この制限によりパフォーマンスが低下します。
上記 2 つの課題を統合して解決するために、我々は、Q 値を緩やかな範囲に制限し、各状態にわたる保守的なレベルでの適応制御を可能にするフレームワーク、Adaptive Conservative Level in Q-Learning (ACL-QL) を提案します。
-アクションのペア、つまり、良好な遷移では Q 値をより多く引き上げ、悪い遷移ではより少なく引き上げます。
学習された Q 関数の保守的なレベルが穏やかな範囲に制限される条件と、各遷移を適応的に最適化する方法を理論的に分析します。
理論的分析に動機付けられて、我々は、2 つの学習可能な適応重み関数を使用して各遷移にわたって保守的なレベルを制御する新しいアルゴリズム ACL-QL を提案します。
続いて、適応重み関数、Q 関数、およびポリシー ネットワークを交互にトレーニングするために、単調性損失と代理損失を設計します。
当社では、一般的に使用されている D4RL ベンチマークで ACL-QL を評価し、広範なアブレーション研究を実施して、既存のオフライン DRL ベースラインと比較した有効性と最先端のパフォーマンスを示します。

要約(オリジナル)

Offline Reinforcement Learning (RL), which operates solely on static datasets without further interactions with the environment, provides an appealing alternative to learning a safe and promising control policy. The prevailing methods typically learn a conservative policy to mitigate the problem of Q-value overestimation, but it is prone to overdo it, leading to an overly conservative policy. Moreover, they optimize all samples equally with fixed constraints, lacking the nuanced ability to control conservative levels in a fine-grained manner. Consequently, this limitation results in a performance decline. To address the above two challenges in a united way, we propose a framework, Adaptive Conservative Level in Q-Learning (ACL-QL), which limits the Q-values in a mild range and enables adaptive control on the conservative level over each state-action pair, i.e., lifting the Q-values more for good transitions and less for bad transitions. We theoretically analyze the conditions under which the conservative level of the learned Q-function can be limited in a mild range and how to optimize each transition adaptively. Motivated by the theoretical analysis, we propose a novel algorithm, ACL-QL, which uses two learnable adaptive weight functions to control the conservative level over each transition. Subsequently, we design a monotonicity loss and surrogate losses to train the adaptive weight functions, Q-function, and policy network alternatively. We evaluate ACL-QL on the commonly used D4RL benchmark and conduct extensive ablation studies to illustrate the effectiveness and state-of-the-art performance compared to existing offline DRL baselines.

arxiv情報

著者 Kun Wu,Yinuo Zhao,Zhiyuan Xu,Zhengping Che,Chengxiang Yin,Chi Harold Liu,Qinru Qiu,Feiferi Feng,Jian Tang
発行日 2024-12-22 04:18:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク