Contrast Sets for Evaluating Language-Guided Robot Policies

要約

言語ガイド付きの現実世界の設定でのロボットの評価は時間がかかり、多くの場合、複雑なシーン全体で潜在的な指示の小さなスペースのみをサンプリングします。
この研究では、独立した同一分散 (i.i.d.) テスト インスタンスに小さいながらも特異的な摂動を加えるアプローチとして、ロボット工学用のコントラスト セットを導入します。
私たちは、評価を実行するための実験者の労力と、その結果として推定されるテスト パフォーマンスと、摂動されたインスタンスでのパフォーマンスから引き出せる洞察との関係を調査します。
さまざまなコントラストセットの摂動の相対的なパフォーマンスの変化を使用して、シミュレートされた操作タスクと物理的なロボットの視覚と言語のナビゲーションタスクの両方で、実験者の労力を軽減した場合のポリシーを特徴付けます。
私たちは、小規模な、i.i.d. のより有益な代替手段として、コントラスト セット評価の使用を推奨します。
物理ロボット上でのデモンストレーション、および業界規模の実世界評価に代わるスケーラブルな代替手段として。

要約(オリジナル)

Robot evaluations in language-guided, real world settings are time-consuming and often sample only a small space of potential instructions across complex scenes. In this work, we introduce contrast sets for robotics as an approach to make small, but specific, perturbations to otherwise independent, identically distributed (i.i.d.) test instances. We investigate the relationship between experimenter effort to carry out an evaluation and the resulting estimated test performance as well as the insights that can be drawn from performance on perturbed instances. We use the relative performance change of different contrast set perturbations to characterize policies at reduced experimenter effort in both a simulated manipulation task and a physical robot vision-and-language navigation task. We encourage the use of contrast set evaluations as a more informative alternative to small scale, i.i.d. demonstrations on physical robots, and as a scalable alternative to industry-scale real world evaluations.

arxiv情報

著者 Abrar Anwar,Rohan Gupta,Jesse Thomason
発行日 2024-10-25 15:23:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク