要約
学習したロボット制御ポリシーを評価して、物理的なタスクレベルの機能を決定するために、実験者の時間と労力を費やします。
ますます多くのポリシーとタスクがこの問題を悪化させます。
すべてのタスクのすべてのポリシーを複数回テストすることは非現実的です。
各トライアルには手動環境のリセットが必要であり、各タスクの変更には、オブジェクトの再配置またはロボットの変更さえ含まれます。
評価するタスクとポリシーのランダムサブセットを素朴に選択することは、信頼できない、不完全な結果を伴う高コストのソリューションです。
この作業では、アクティブなテストの問題としてロボット評価を策定します。
実験を順次実行する際に、すべてのタスクとポリシーにわたるロボット性能の分布をモデル化することを提案します。
タスクは、多くの場合、政策行動における潜在的な関係を明らかにする可能性のある類似点を共有します。また、自然言語は、タスク間のこれらの関係をモデル化する上で有用であることを示しています。
次に、この定式化を活用して、コスト認識の予想情報ゲインヒューリスティックを使用して、有益な試験を効率的に選択することにより、実験者の努力を減らします。
私たちのフレームワークは、連続的および個別のパフォーマンスの両方の成果に対応しています。
実際のロボットとシミュレーションからの既存の評価データに関する実験を実施します。
有益な試験に優先順位を付けることにより、私たちのフレームワークは、多くのタスクにわたるロボットポリシーの評価メトリックを計算するコストを削減します。
要約(オリジナル)
Evaluating learned robot control policies to determine their physical task-level capabilities costs experimenter time and effort. The growing number of policies and tasks exacerbates this issue. It is impractical to test every policy on every task multiple times; each trial requires a manual environment reset, and each task change involves re-arranging objects or even changing robots. Naively selecting a random subset of tasks and policies to evaluate is a high-cost solution with unreliable, incomplete results. In this work, we formulate robot evaluation as an active testing problem. We propose to model the distribution of robot performance across all tasks and policies as we sequentially execute experiments. Tasks often share similarities that can reveal potential relationships in policy behavior, and we show that natural language is a useful prior in modeling these relationships between tasks. We then leverage this formulation to reduce the experimenter effort by using a cost-aware expected information gain heuristic to efficiently select informative trials. Our framework accommodates both continuous and discrete performance outcomes. We conduct experiments on existing evaluation data from real robots and simulations. By prioritizing informative trials, our framework reduces the cost of calculating evaluation metrics for robot policies across many tasks.
arxiv情報
著者 | Abrar Anwar,Rohan Gupta,Zain Merchant,Sayan Ghosh,Willie Neiswanger,Jesse Thomason |
発行日 | 2025-02-14 00:07:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google