Distributionally Robust Off-Dynamics Reinforcement Learning: Provable Efficiency with Linear Function Approximation

要約

私たちはオフダイナミクス強化学習 (RL) を研究しています。この学習では、ポリシーがソース ドメインでトレーニングされ、別のターゲット ドメインにデプロイされます。
私たちは、オンラインの分散的に堅牢なマルコフ決定プロセス (DRMDP) を通じてこの問題を解決することを目指しています。このプロセスでは、学習アルゴリズムがソース ドメインと積極的に対話しながら、ソース ドメインの遷移カーネルの不確実性セット内にある考えられる最悪のダイナミクスの下で最適なパフォーマンスを追求します。
オフダイナミクス RL の関数近似を使用したオンライン DRMDP に関する最初の研究を提供します。
DRMDP の二重定式化は、公称遷移カーネルが線形であっても非線形性を誘発し、エラー伝播につながる可能性があることがわかりました。
合計変動距離を使用して $d$-rectangular 不確実性セットを設計することにより、この追加の非線形性を除去し、誤差伝播をバイパスします。
次に、関数近似を使用したオフダイナミクス RL 用の効率的であることが証明された最初のオンライン DRMDP アルゴリズムである DR-LSVI-UCB を導入し、状態とアクション空間のサイズに依存しない多項式の準最適限界を確立します。
私たちの研究は、線形関数近似を使用したオンライン DRMDP の証明可能な効率をより深く理解するための第一歩となります。
最後に、さまざまな数値実験を通じて DR-LSVI-UCB のパフォーマンスと堅牢性を実証します。

要約(オリジナル)

We study off-dynamics Reinforcement Learning (RL), where the policy is trained on a source domain and deployed to a distinct target domain. We aim to solve this problem via online distributionally robust Markov decision processes (DRMDPs), where the learning algorithm actively interacts with the source domain while seeking the optimal performance under the worst possible dynamics that is within an uncertainty set of the source domain’s transition kernel. We provide the first study on online DRMDPs with function approximation for off-dynamics RL. We find that DRMDPs’ dual formulation can induce nonlinearity, even when the nominal transition kernel is linear, leading to error propagation. By designing a $d$-rectangular uncertainty set using the total variation distance, we remove this additional nonlinearity and bypass the error propagation. We then introduce DR-LSVI-UCB, the first provably efficient online DRMDP algorithm for off-dynamics RL with function approximation, and establish a polynomial suboptimality bound that is independent of the state and action space sizes. Our work makes the first step towards a deeper understanding of the provable efficiency of online DRMDPs with linear function approximation. Finally, we substantiate the performance and robustness of DR-LSVI-UCB through different numerical experiments.

arxiv情報

著者 Zhishuai Liu,Pan Xu
発行日 2024-02-23 16:01:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク