要約
分布的にロバストなマルコフ決定プロセス (DRMDP) は、制約付きセット内の最悪の場合の遷移ダイナミクスに対して堅牢な学習ポリシーによって、強化学習におけるダイナミクスの変化に対処するための一般的なフレームワークです。
ただし、その二重最適化オラクルを解決するには、理論的な分析と計算効率が制限されるという重大な課題が生じます。
最近提案されたロバスト正則化マルコフ決定プロセス (RRMDP) は、不確実性集合制約を値関数の正則化項に置き換え、スケーラビリティと理論的洞察を向上させます。
しかし、既存の RRMDP 手法は非構造化正則化に依存しており、非現実的な移行を考慮することで過度に保守的なポリシーにつながることがよくあります。
これらの問題に対処するために、我々は、遷移カーネルと正則化の両方に線形潜在構造を導入する新しいフレームワーク $d$-rectangular 線形ロバスト正則化マルコフ決定プロセス ($d$-RRMDP) を提案します。
エージェントが公称環境で事前に収集されたデータセットから堅牢なポリシーを学習するオフライン RL 設定では、線形関数近似と $f$ ダイバージェンス ベースを採用した、ロバスト正則化悲観値反復 (R2PVI) というアルゴリズム ファミリを開発します。
遷移カーネルの正則化用語。
R2PVI ポリシーの準最適性ギャップにインスタンス依存の上限を提供します。これらの上限は、ロバストに許容される遷移の下で、ロバストな最適ポリシーが訪問する状態アクション空間をデータセットがどの程度カバーするかに依存することを示しています。
この項は、情報理論の下限を通じて $d$-RRMDP の基本であることがさらに示されています。
最後に、数値実験により、R2PVI が堅牢なポリシーを学習し、制約付き DRMDP の方法よりも計算効率が高いことが検証されました。
要約(オリジナル)
The Distributionally Robust Markov Decision Process (DRMDP) is a popular framework for addressing dynamics shift in reinforcement learning by learning policies robust to the worst-case transition dynamics within a constrained set. However, solving its dual optimization oracle poses significant challenges, limiting theoretical analysis and computational efficiency. The recently proposed Robust Regularized Markov Decision Process (RRMDP) replaces the uncertainty set constraint with a regularization term on the value function, offering improved scalability and theoretical insights. Yet, existing RRMDP methods rely on unstructured regularization, often leading to overly conservative policies by considering transitions that are unrealistic. To address these issues, we propose a novel framework, the $d$-rectangular linear robust regularized Markov decision process ($d$-RRMDP), which introduces a linear latent structure into both transition kernels and regularization. For the offline RL setting, where an agent learns robust policies from a pre-collected dataset in the nominal environment, we develop a family of algorithms, Robust Regularized Pessimistic Value Iteration (R2PVI), employing linear function approximation and $f$-divergence based regularization terms on transition kernels. We provide instance-dependent upper bounds on the suboptimality gap of R2PVI policies, showing these bounds depend on how well the dataset covers state-action spaces visited by the optimal robust policy under robustly admissible transitions. This term is further shown to be fundamental to $d$-RRMDPs via information-theoretic lower bounds. Finally, numerical experiments validate that R2PVI learns robust policies and is computationally more efficient than methods for constrained DRMDPs.
arxiv情報
著者 | Cheng Tang,Zhishuai Liu,Pan Xu |
発行日 | 2024-11-27 18:57:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google