Policy Gradient for LQR with Domain Randomization

要約

ドメインランダム化(DR)は、現実世界で堅牢なパフォーマンスを達成することを目的として、シミュレートされた環境の分布でトレーニングコントローラーによってSIMからリアル転送を可能にします。
DRは実際に広く使用されており、多くの場合、単純なポリシーグラデーション(PG)方法を使用して解決されますが、その理論的保証の理解は依然として限られています。
このギャップに対処するために、ドメインランダム化線形二次調節(LQR)のPGメソッドの最初の収束分析を提供します。
PGは、サンプリングされたシステムの不均一性に関する適切な境界の下で、DR対物レンズの有限サンプル近似のミニマライザーにグローバルに収束することを示します。
また、サンプル平均と人口レベルの目標の間の小さなパフォーマンスギャップを達成することに関連するサンプル複合性を定量化します。
さらに、最初の共同安定コントローラーの必要性を除き、見つけるのが難しいかもしれない割引ファクターアニーリングアルゴリズムを提案して分析します。
経験的結果は、私たちの理論的発見をサポートし、リスクに敏感なDRの定式化や確率PGアルゴリズムなど、将来の仕事のための有望な方向性を強調しています。

要約(オリジナル)

Domain randomization (DR) enables sim-to-real transfer by training controllers on a distribution of simulated environments, with the goal of achieving robust performance in the real world. Although DR is widely used in practice and is often solved using simple policy gradient (PG) methods, understanding of its theoretical guarantees remains limited. Toward addressing this gap, we provide the first convergence analysis of PG methods for domain-randomized linear quadratic regulation (LQR). We show that PG converges globally to the minimizer of a finite-sample approximation of the DR objective under suitable bounds on the heterogeneity of the sampled systems. We also quantify the sample-complexity associated with achieving a small performance gap between the sample-average and population-level objectives. Additionally, we propose and analyze a discount-factor annealing algorithm that obviates the need for an initial jointly stabilizing controller, which may be challenging to find. Empirical results support our theoretical findings and highlight promising directions for future work, including risk-sensitive DR formulations and stochastic PG algorithms.

arxiv情報

著者 Tesshu Fujinami,Bruce D. Lee,Nikolai Matni,George J. Pappas
発行日 2025-03-31 17:51:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY パーマリンク