要約
オフライン強化学習 (RL) の最近の進歩により、戻り条件付き教師あり学習 (RCSL) の機能が強調されています。これは、教師ありの方法で各状態の目標収益に基づいてアクション分布を学習するパラダイムです。
しかし、一般的な RCSL 手法は主に決定論的な軌道モデリングに重点を置き、確率的な状態遷移や将来の軌道分布の多様性を無視しています。
根本的な課題は、個々の軌跡内のサンプリングされたリターンと複数の軌跡にわたる期待されるリターンとの間の矛盾から生じます。
幸いなことに、値ベースの手法では、値関数を利用して期待される収益を近似することで解決策を提供し、それによって不一致に効果的に対処します。
これらの洞察に基づいて、我々は、価値ベースの手法からの長期収益の予測可能性と、Decision Transformer の軌跡モデリング機能を組み合わせた、Critic-Guided Decision Transformer (CGDT) と呼ばれる新しいアプローチを提案します。
CGDT は、クリティカルとして知られる学習値関数を組み込むことにより、指定されたターゲットのリターンとアクションの期待されるリターンの間の直接の調整を保証します。
この統合により、RCSL の決定論的な性質と値ベースの手法の確率的特性の間のギャップが埋められます。
確率的環境と D4RL ベンチマーク データセットの経験的評価により、CGDT が従来の RCSL 手法よりも優れていることが実証されています。
これらの結果は、CGDT がオフライン RL の最先端技術を進歩させ、RCSL の適用可能性を幅広い RL タスクに拡張する可能性を強調しています。
要約(オリジナル)
Recent advancements in offline reinforcement learning (RL) have underscored the capabilities of Return-Conditioned Supervised Learning (RCSL), a paradigm that learns the action distribution based on target returns for each state in a supervised manner. However, prevailing RCSL methods largely focus on deterministic trajectory modeling, disregarding stochastic state transitions and the diversity of future trajectory distributions. A fundamental challenge arises from the inconsistency between the sampled returns within individual trajectories and the expected returns across multiple trajectories. Fortunately, value-based methods offer a solution by leveraging a value function to approximate the expected returns, thereby addressing the inconsistency effectively. Building upon these insights, we propose a novel approach, termed the Critic-Guided Decision Transformer (CGDT), which combines the predictability of long-term returns from value-based methods with the trajectory modeling capability of the Decision Transformer. By incorporating a learned value function, known as the critic, CGDT ensures a direct alignment between the specified target returns and the expected returns of actions. This integration bridges the gap between the deterministic nature of RCSL and the probabilistic characteristics of value-based methods. Empirical evaluations on stochastic environments and D4RL benchmark datasets demonstrate the superiority of CGDT over traditional RCSL methods. These results highlight the potential of CGDT to advance the state of the art in offline RL and extend the applicability of RCSL to a wide range of RL tasks.
arxiv情報
著者 | Yuanfu Wang,Chao Yang,Ying Wen,Yu Liu,Yu Qiao |
発行日 | 2023-12-21 10:29:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google