要約
継続的環境におけるビジョンと言語のナビゲーション (VLN-CE) は、最も直観的でありながらもやりがいのある、身体化された AI タスクの 1 つです。
エージェントは、一連の自然言語命令に従って一連の低レベルのアクションを実行することで、目標に向かってナビゲートする任務を負っています。
文献内のすべての VLN-CE メソッドは、言語指示が正確であることを前提としています。
ただし、実際には、不正確な記憶や混乱により、空間環境を記述する際に人間が与える指示に誤りが含まれる可能性があります。
現在の VLN-CE ベンチマークはこのシナリオに対応していないため、VLN-CE の最先端の手法は人間のユーザーからの誤った指示が存在する場合には脆弱になります。
初めて、潜在的な人為的原因を考慮して、さまざまなタイプの命令エラーを導入する新しいベンチマーク データセットを提案します。
このベンチマークは、継続的な環境における VLN システムの堅牢性についての貴重な洞察を提供します。
ベンチマークで最先端の VLN-CE メソッドを評価すると、成功率の顕著なパフォーマンスの低下 (最大 -25%) が観察されます。
さらに、命令エラーの検出と位置特定のタスクを正式に定義し、ベンチマーク データセットに基づく評価プロトコルを確立します。
また、クロスモーダル変換アーキテクチャに基づいて、ベースラインと比較してエラー検出と位置特定において最高のパフォーマンスを達成する効果的な方法も提案します。
驚くべきことに、私たちが提案した手法は、VLN-CE で一般的に使用される 2 つのデータセット、つまり R2R-CE と RxR-CE の検証セットのエラーを明らかにし、他のタスクにおける私たちの手法の有用性を実証しました。
コードとデータセットは https://intelligolabs.github.io/R2RIE-CE で入手できます。
要約(オリジナル)
Vision-and-Language Navigation in Continuous Environments (VLN-CE) is one of the most intuitive yet challenging embodied AI tasks. Agents are tasked to navigate towards a target goal by executing a set of low-level actions, following a series of natural language instructions. All VLN-CE methods in the literature assume that language instructions are exact. However, in practice, instructions given by humans can contain errors when describing a spatial environment due to inaccurate memory or confusion. Current VLN-CE benchmarks do not address this scenario, making the state-of-the-art methods in VLN-CE fragile in the presence of erroneous instructions from human users. For the first time, we propose a novel benchmark dataset that introduces various types of instruction errors considering potential human causes. This benchmark provides valuable insight into the robustness of VLN systems in continuous environments. We observe a noticeable performance drop (up to -25%) in Success Rate when evaluating the state-of-the-art VLN-CE methods on our benchmark. Moreover, we formally define the task of Instruction Error Detection and Localization, and establish an evaluation protocol on top of our benchmark dataset. We also propose an effective method, based on a cross-modal transformer architecture, that achieves the best performance in error detection and localization, compared to baselines. Surprisingly, our proposed method has revealed errors in the validation set of the two commonly used datasets for VLN-CE, i.e., R2R-CE and RxR-CE, demonstrating the utility of our technique in other tasks. Code and dataset available at https://intelligolabs.github.io/R2RIE-CE
arxiv情報
著者 | Francesco Taioli,Stefano Rosa,Alberto Castellini,Lorenzo Natale,Alessio Del Bue,Alessandro Farinelli,Marco Cristani,Yiming Wang |
発行日 | 2025-01-15 12:45:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google