要約
強化学習エージェントは、シミュレーションから実際の世界に展開されたときに苦労することがよくあります。
SIMからリアルのギャップを減らすための支配的な戦略は、サンプリングダイナミクスパラメーターによって生成される多くのシミュレーターでポリシーをトレーニングするドメインランダム化(DR)ですが、Standard DRは実際のシステムからすでに利用可能なオフラインデータを無視します。
オフラインドメインランダム化(ODR)を研究します。これは、最初にシミュレータパラメーターを介してオフラインデータセットに分布しています。
成長する経験的作業は、Dropoなどのアルゴリズムを使用してかなりの利益を報告していますが、ODRの理論的基礎はほとんど未踏のままです。
この作業では、(i)ODRをパラメトリックシミュレーターファミリーに対する最大尤度推定として形式化します。(ii)データセットが伸びるにつれて真のダイナミクスに収束することを示す軽度の規則性と識別可能条件の下でのこの推定器の一貫性を証明します。
連続設定)、および(iv)e-Dropoを導入します。これは、分散の崩壊を防ぐエントロピーボーナスを追加し、実際により広範なランダム化とより堅牢なゼロショット転送をもたらすエントロピーボーナスを追加します。
要約(オリジナル)
Reinforcement-learning agents often struggle when deployed from simulation to the real-world. A dominant strategy for reducing the sim-to-real gap is domain randomization (DR) which trains the policy across many simulators produced by sampling dynamics parameters, but standard DR ignores offline data already available from the real system. We study offline domain randomization (ODR), which first fits a distribution over simulator parameters to an offline dataset. While a growing body of empirical work reports substantial gains with algorithms such as DROPO, the theoretical foundations of ODR remain largely unexplored. In this work, we (i) formalize ODR as a maximum-likelihood estimation over a parametric simulator family, (ii) prove consistency of this estimator under mild regularity and identifiability conditions, showing it converges to the true dynamics as the dataset grows, (iii) derive gap bounds demonstrating ODRs sim-to-real error is up to an O(M) factor tighter than uniform DR in the finite-simulator case (and analogous gains in the continuous setting), and (iv) introduce E-DROPO, a new version of DROPO which adds an entropy bonus to prevent variance collapse, yielding broader randomization and more robust zero-shot transfer in practice.
arxiv情報
著者 | Arnaud Fickinger,Abderrahim Bendahi,Stuart Russell |
発行日 | 2025-06-11 19:22:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google