要約
Adaptable Error Detection (AED) と呼ばれる新しいタスクを導入します。これは、新しい環境での視覚的観察に基づいて、少数ショット模倣 (FSI) ポリシーの動作エラーを特定することを目的としています。
周辺地域に深刻な被害を引き起こす可能性があるため、現実世界のシナリオでの FSI ポリシーの適用は制限されます。
したがって、FSI ポリシーがデモンストレーションの意図と一致しない場合にオペレーターに通知するには、堅牢なシステムが必要です。
このタスクでは、(1) 新しい環境での動作エラーの検出、(2) 目立った変化が明らかにならないまま発生した動作エラーの特定、(3) オンライン検出の必要性によるロールアウトの完全な一時的情報の欠如という 3 つの課題が生じます。
ただし、既存のベンチマークは、タスクがこれらすべての課題を提示していないため、AED の開発をサポートできません。
この目的を達成するために、322 の基本環境と 153 の新規環境で構成されるクロスドメイン AED ベンチマークを開発します。
さらに、これらの課題に対処するためにパターン オブザーバー (PrObe) を提案します。
PrObe には強力なパターン抽出機能が装備されており、新しい学習目標に基づいて、正常状態またはエラー状態を表すポリシー機能の識別可能なパターンを解析します。
総合的な評価を通じて、PrObe は幅広い FSI ポリシーから生じるエラーを検出する優れた機能を実証し、強力なベースラインを常に上回っています。
さらに、提案されたアーキテクチャ設計の有効性と AED タスクの実用性をそれぞれ検証するために、詳細なアブレーションとエラー修正に関するパイロット研究を実施します。
要約(オリジナル)
We introduce a new task called Adaptable Error Detection (AED), which aims to identify behavior errors in few-shot imitation (FSI) policies based on visual observations in novel environments. The potential to cause serious damage to surrounding areas limits the application of FSI policies in real-world scenarios. Thus, a robust system is necessary to notify operators when FSI policies are inconsistent with the intent of demonstrations. This task introduces three challenges: (1) detecting behavior errors in novel environments, (2) identifying behavior errors that occur without revealing notable changes, and (3) lacking complete temporal information of the rollout due to the necessity of online detection. However, the existing benchmarks cannot support the development of AED because their tasks do not present all these challenges. To this end, we develop a cross-domain AED benchmark, consisting of 322 base and 153 novel environments. Additionally, we propose Pattern Observer (PrObe) to address these challenges. PrObe is equipped with a powerful pattern extractor and guided by novel learning objectives to parse discernible patterns in the policy feature representations of normal or error states. Through our comprehensive evaluation, PrObe demonstrates superior capability to detect errors arising from a wide range of FSI policies, consistently surpassing strong baselines. Moreover, we conduct detailed ablations and a pilot study on error correction to validate the effectiveness of the proposed architecture design and the practicality of the AED task, respectively.
arxiv情報
著者 | Jia-Fong Yeh,Kuo-Han Hung,Pang-Chi Lo,Chi-Ming Chung,Tsung-Han Wu,Hung-Ting Su,Yi-Ting Chen,Winston H. Hsu |
発行日 | 2024-09-27 00:06:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google