要約
多くの現実世界の意思決定の問題は、オフダイナミクスの課題に直面しています。エージェントは、ソースドメインでポリシーを学習し、異なる状態遷移を持つターゲットドメインに展開します。
分布的に堅牢なMarkov決定プロセス(DRMDP)は、移行ダイナミクスの事前に指定された不確実性セット内で最悪の環境でうまく機能する堅牢なポリシーを見つけることにより、この課題に対処します。
その有効性は、ダイナミクスの事前知識に基づいて、これらの不確実性セットの適切な設計に大きく依存しています。
この作業では、公称ダイナミクスが線形混合モデルであると想定される新しい線形混合DRMDPフレームワークを提案します。
既存の不確実性セットとは対照的に、公称カーネルを中心としたボールとして直接定義されたセットは、線形混合DRMDPSは、混合重重量パラメーターの周りのボールに基づいて不確実性セットを定義します。
この新しいフレームワークは、混合モデルに関する事前知識が存在する場合、$(s、a)$ $ – $ d $ rectangularityに基づいた従来のモデルと比較して、不確実性のより洗練された表現を提供することを示します。
一般的な$ f $ divergenceが定義された不確実性セットを含む線形混合DRMDPにおける堅牢なポリシー学習のメタアルゴリズムを提案し、3つの発散メトリックのインスタンス化:総変動、Kullback-Leibler、および$ \ Chi^2 $の発散の3つの発散メトリックのインスタンス化の下でサンプルの複雑さを分析します。
これらの結果は、線形混合DRMDPの統計的学習性を確立し、この新しい設定に関する将来の研究のための理論的基盤を築きます。
要約(オリジナル)
Many real-world decision-making problems face the off-dynamics challenge: the agent learns a policy in a source domain and deploys it in a target domain with different state transitions. The distributionally robust Markov decision process (DRMDP) addresses this challenge by finding a robust policy that performs well under the worst-case environment within a pre-specified uncertainty set of transition dynamics. Its effectiveness heavily hinges on the proper design of these uncertainty sets, based on prior knowledge of the dynamics. In this work, we propose a novel linear mixture DRMDP framework, where the nominal dynamics is assumed to be a linear mixture model. In contrast with existing uncertainty sets directly defined as a ball centered around the nominal kernel, linear mixture DRMDPs define the uncertainty sets based on a ball around the mixture weighting parameter. We show that this new framework provides a more refined representation of uncertainties compared to conventional models based on $(s,a)$-rectangularity and $d$-rectangularity, when prior knowledge about the mixture model is present. We propose a meta algorithm for robust policy learning in linear mixture DRMDPs with general $f$-divergence defined uncertainty sets, and analyze its sample complexities under three divergence metrics instantiations: total variation, Kullback-Leibler, and $\chi^2$ divergences. These results establish the statistical learnability of linear mixture DRMDPs, laying the theoretical foundation for future research on this new setting.
arxiv情報
著者 | Zhishuai Liu,Pan Xu |
発行日 | 2025-05-23 15:48:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google