Marginalized Importance Sampling for Off-Environment Policy Evaluation

要約

強化学習 (RL) 手法は通常、サンプル効率が低いため、現実世界のロボットで RL ポリシーをトレーニングして展開することが困難になります。
シミュレーションでトレーニングされた堅牢なポリシーであっても、そのパフォーマンスを評価するには実際の展開が必要です。
このペーパーでは、エージェント ポリシーを現実世界に展開する前に、その実際のパフォーマンスを評価するための新しいアプローチを提案します。
私たちのアプローチには、現実世界のオフライン データとともにシミュレーターが組み込まれており、限界化重要度サンプリング (MIS) のフレームワークを使用してあらゆるポリシーのパフォーマンスを評価します。
既存の MIS 手法は 2 つの課題に直面しています。(1) 妥当な範囲から逸脱する大きな密度比、および (2) 比率を間接的に推測する必要がある間接的な監視により、推定誤差が悪化します。
私たちのアプローチは、ターゲット ポリシーの占有率を中間変数としてシミュレーターに導入し、個別に学習できる 2 つの項の積として密度比を学習することで、これらの課題に対処します。
最初の項は直接監視されて学習され、2 番目の項の大きさは小さいため、計算効率が高くなります。
サンプルの複雑さと 2 段階の手順のエラー伝播を分析します。
さらに、Cartpole、Reacher、Half-Cheetah などの Sim2Sim 環境でのアプローチを経験的に評価します。
私たちの結果は、私たちの方法がさまざまな Sim2Sim ギャップ、ターゲット ポリシー、およびオフライン データ収集ポリシーにわたってよく一般化できることを示しています。
また、Gazebo シミュレーターとともにオフライン データを使用して 7 DoF ロボット アームのパフォーマンスを検証する Sim2Real タスクでのアルゴリズムのパフォーマンスも実証します。

要約(オリジナル)

Reinforcement Learning (RL) methods are typically sample-inefficient, making it challenging to train and deploy RL-policies in real world robots. Even a robust policy trained in simulation requires a real-world deployment to assess their performance. This paper proposes a new approach to evaluate the real-world performance of agent policies prior to deploying them in the real world. Our approach incorporates a simulator along with real-world offline data to evaluate the performance of any policy using the framework of Marginalized Importance Sampling (MIS). Existing MIS methods face two challenges: (1) large density ratios that deviate from a reasonable range and (2) indirect supervision, where the ratio needs to be inferred indirectly, thus exacerbating estimation error. Our approach addresses these challenges by introducing the target policy’s occupancy in the simulator as an intermediate variable and learning the density ratio as the product of two terms that can be learned separately. The first term is learned with direct supervision and the second term has a small magnitude, thus making it computationally efficient. We analyze the sample complexity as well as error propagation of our two step-procedure. Furthermore, we empirically evaluate our approach on Sim2Sim environments such as Cartpole, Reacher, and Half-Cheetah. Our results show that our method generalizes well across a variety of Sim2Sim gap, target policies and offline data collection policies. We also demonstrate the performance of our algorithm on a Sim2Real task of validating the performance of a 7 DoF robotic arm using offline data along with the Gazebo simulator.

arxiv情報

著者 Pulkit Katdare,Nan Jiang,Katherine Driggs-Campbell
発行日 2023-10-04 20:17:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク