Minimax Optimal and Computationally Efficient Algorithms for Distributionally Robust Offline Reinforcement Learning

要約

分布的にロバストなオフライン強化学習 (RL) は、ダイナミクスの不確実性をモデル化することで、環境の摂動に対するロバストなポリシー トレーニングを目指しますが、大規模な状態行動空間に直面する場合には関数近似が必要です。
ただし、力学的な不確実性を考慮すると本質的な非線形性と計算負荷が生じ、関数近似の解析と実際の使用に特有の課題が生じます。
公称モデルと摂動モデルが線形にパラメータ化される基本設定に焦点を当て、関数近似を実現するミニマックス最適かつ計算効率の高いアルゴリズムを提案し、ロバストなオフライン RL のコンテキストでインスタンス依存の準最適性分析の研究を開始します。
私たちの結果は、堅牢なオフライン RL の関数近似は、標準的なオフライン RL の関数近似とは本質的に異なり、おそらくそれより難しいことを明らかにしました。
私たちのアルゴリズムと理論的結果は、分散情報を組み込んだ新しい関数近似メカニズム、準最適性と推定不確実性の分解の新しい手順、ロバストな値関数の収縮の定量化、および綿密に設計されたハードウェアファミリーを含む、さまざまな新しい技術に大きく依存しています。
インスタンス、独立した関心がある可能性があります。

要約(オリジナル)

Distributionally robust offline reinforcement learning (RL), which seeks robust policy training against environment perturbation by modeling dynamics uncertainty, calls for function approximations when facing large state-action spaces. However, the consideration of dynamics uncertainty introduces essential nonlinearity and computational burden, posing unique challenges for analyzing and practically employing function approximation. Focusing on a basic setting where the nominal model and perturbed models are linearly parameterized, we propose minimax optimal and computationally efficient algorithms realizing function approximation and initiate the study on instance-dependent suboptimality analysis in the context of robust offline RL. Our results uncover that function approximation in robust offline RL is essentially distinct from and probably harder than that in standard offline RL. Our algorithms and theoretical results crucially depend on a variety of new techniques, involving a novel function approximation mechanism incorporating variance information, a new procedure of suboptimality and estimation uncertainty decomposition, a quantification of the robust value function shrinkage, and a meticulously designed family of hard instances, which might be of independent interest.

arxiv情報

著者 Zhishuai Liu,Pan Xu
発行日 2024-03-14 17:55:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク