Contrast Sets for Evaluating Language-Guided Robot Policies

要約

言語ガイド付きの現実世界の設定でのロボットの評価は時間がかかり、多くの場合、複雑なシーン全体で潜在的な指示の小さなスペースのみをサンプリングします。
この研究では、独立した同一分散 (i.i.d.) テスト インスタンスに小さいながらも特異的な摂動を加えるアプローチとして、ロボット工学用のコントラスト セットを導入します。
私たちは、評価を実行するための実験者の労力と、その結果として推定されるテスト パフォーマンスと、摂動されたインスタンスでのパフォーマンスから引き出せる洞察との関係を調査します。
コントラスト セットを使用して、シミュレートされた操作タスクと物理的なロボットの視覚と言語のナビゲーション タスクの両方で、実験者の労力を軽減してポリシーを特徴付けます。
私たちは、小規模のより有益な代替手段として、コントラスト セットの評価を使用することをお勧めします。
物理ロボット上でのデモンストレーション、および業界規模の実世界評価に代わるスケーラブルな代替手段として。

要約(オリジナル)

Robot evaluations in language-guided, real world settings are time-consuming and often sample only a small space of potential instructions across complex scenes. In this work, we introduce contrast sets for robotics as an approach to make small, but specific, perturbations to otherwise independent, identically distributed (i.i.d.) test instances. We investigate the relationship between experimenter effort to carry out an evaluation and the resulting estimated test performance as well as the insights that can be drawn from performance on perturbed instances. We use contrast sets to characterize policies at reduced experimenter effort in both a simulated manipulation task and a physical robot vision-and-language navigation task. We encourage the use of contrast set evaluations as a more informative alternative to small scale, i.i.d. demonstrations on physical robots, and as a scalable alternative to industry-scale real world evaluations.

arxiv情報

著者 Abrar Anwar,Rohan Gupta,Jesse Thomason
発行日 2024-06-19 15:31:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク