AutoEval: Autonomous Evaluation of Generalist Robot Manipulation Policies in the Real World

要約

スケーラブルで再現可能なポリシー評価は、ロボット学習における長年の課題でした。
評価は進捗を評価し、より良いポリシーを構築するために重要ですが、現実の世界では、特に統計的に信頼できる結果を提供する規模での評価は、人間の時間の面で費用がかかり、取得が困難です。
ますます一般的なロボットポリシーの評価には、評価環境のますます多様化するレパートリーが必要であり、評価のボトルネックがさらに顕著になります。
ロボットポリシーの実際の評価をより実用的にするために、私たちは、最小限の人間の介入で24時間周辺で自律的に評価するシステムであるAutoevalを提案します。
ユーザーは、ソフトウェアジョブがクラスタースケジューリングシステムで提出される方法と同様に、評価ジョブを自動変動キューに提出することにより、自動評価と対話し、自動成功検知と自動シーンのリセットを提供するフレームワーク内で評価のポリシーをスケジュールします。
自動面積は、評価プロセスへの人間の関与をほぼ完全に排除し、時計評価を中心に許可することを示し、評価結果は手で行われたグラウンドトゥルース評価に密接に対応しています。
Roboticsコミュニティにおけるジェネラリスト政策の評価を促進するために、Widowx Robot Armsを備えた人気のあるBriddeataロボットセットアップで、複数の自己評価シーンへのパブリックアクセスを提供します。
将来的には、機関全体に自己量のシーンを設置して、多様で分散した評価ネットワークを形成できることを願っています。

要約(オリジナル)

Scalable and reproducible policy evaluation has been a long-standing challenge in robot learning. Evaluations are critical to assess progress and build better policies, but evaluation in the real world, especially at a scale that would provide statistically reliable results, is costly in terms of human time and hard to obtain. Evaluation of increasingly generalist robot policies requires an increasingly diverse repertoire of evaluation environments, making the evaluation bottleneck even more pronounced. To make real-world evaluation of robotic policies more practical, we propose AutoEval, a system to autonomously evaluate generalist robot policies around the clock with minimal human intervention. Users interact with AutoEval by submitting evaluation jobs to the AutoEval queue, much like how software jobs are submitted with a cluster scheduling system, and AutoEval will schedule the policies for evaluation within a framework supplying automatic success detection and automatic scene resets. We show that AutoEval can nearly fully eliminate human involvement in the evaluation process, permitting around the clock evaluations, and the evaluation results correspond closely to ground truth evaluations conducted by hand. To facilitate the evaluation of generalist policies in the robotics community, we provide public access to multiple AutoEval scenes in the popular BridgeData robot setup with WidowX robot arms. In the future, we hope that AutoEval scenes can be set up across institutions to form a diverse and distributed evaluation network.

arxiv情報

著者 Zhiyuan Zhou,Pranav Atreya,You Liang Tan,Karl Pertsch,Sergey Levine
発行日 2025-03-31 16:23:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク