要約
ロボットポリシー学習における確率的生成モデルの台頭により、エンドツーエンドの視覚運動ポリシーは人間のデモンストレーションから学習することで複雑なタスクを解決することにますます成功しています。
それにもかかわらず、現実世界の評価コストによってユーザーに与えられるポリシーの展開数は少数であるため、そのようなポリシーのパフォーマンスを正確に評価することは依然として課題です。
これは、展開中にパフォーマンスに予期せぬ変化を引き起こすディストリビューションの変更によってさらに悪化します。
動作複製ポリシーを厳密に評価するために、最小限の数の実験的ポリシーのロールアウトを使用して、任意の環境におけるロボットのパフォーマンスに厳しい下限を提供するフレームワークを提示します。
特に、ロボットのパフォーマンス分布に標準的な確率的順序付けを適用することにより、特定のタスクのパフォーマンス分布全体に最悪の場合の限界を (累積分布関数の限界を介して) 提供します。
確立された統計結果に基づいて、ユーザー指定の信頼レベルと厳密性で境界が保持されることを保証し、可能な限り少ないポリシー展開から構築されます。
実験では、シミュレーションとハードウェアの両方で視覚運動操作のポリシーを評価します。
具体的には、(i) シミュレートされた操作設定における境界の保証を経験的に検証し、(ii) ハードウェアに展開された学習されたポリシーが新しい現実世界の環境にどの程度一般化するかを見つけ、(iii) でテストされた 2 つのポリシーを厳密に比較します。
配布外の設定。
私たちの実験データ、コード、信頼限界の実装はオープンソースです。
要約(オリジナル)
With the rise of stochastic generative models in robot policy learning, end-to-end visuomotor policies are increasingly successful at solving complex tasks by learning from human demonstrations. Nevertheless, since real-world evaluation costs afford users only a small number of policy rollouts, it remains a challenge to accurately gauge the performance of such policies. This is exacerbated by distribution shifts causing unpredictable changes in performance during deployment. To rigorously evaluate behavior cloning policies, we present a framework that provides a tight lower-bound on robot performance in an arbitrary environment, using a minimal number of experimental policy rollouts. Notably, by applying the standard stochastic ordering to robot performance distributions, we provide a worst-case bound on the entire distribution of performance (via bounds on the cumulative distribution function) for a given task. We build upon established statistical results to ensure that the bounds hold with a user-specified confidence level and tightness, and are constructed from as few policy rollouts as possible. In experiments we evaluate policies for visuomotor manipulation in both simulation and hardware. Specifically, we (i) empirically validate the guarantees of the bounds in simulated manipulation settings, (ii) find the degree to which a learned policy deployed on hardware generalizes to new real-world environments, and (iii) rigorously compare two policies tested in out-of-distribution settings. Our experimental data, code, and implementation of confidence bounds are open-source.
arxiv情報
著者 | Joseph A. Vincent,Haruki Nishimura,Masha Itkina,Paarth Shah,Mac Schwager,Thomas Kollar |
発行日 | 2024-05-08 22:00:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google