Evaluating Explanation Methods for Vision-and-Language Navigation

要約

未知の環境において自然言語の命令でロボットを操作する能力は、身体化された人工知能 (AI) を実現するための重要なステップです。
視覚言語ナビゲーション (VLN) の分野で提案されているディープ ニューラル モデルのパフォーマンスが向上しているため、モデルがナビゲーション タスクでの意思決定にどのような情報を利用しているかを知ることも同様に興味深いです。
ディープ ニューラル モデルの内部動作を理解するために、Explainable AI (XAI) を推進するためのさまざまな説明手法が開発されています。
しかし、それらは主に画像またはテキスト分類タスクのディープ ニューラル モデルに適用されており、VLN タスクのディープ ニューラル モデルを説明する作業はほとんど行われていません。
この論文では、忠実性の観点から VLN モデルの説明方法を評価するための定量的なベンチマークを構築することで、これらの問題に対処します。
我々は、逐次的意思決定設定における段階的なテキスト説明を測定するための、新しい消去ベースの評価パイプラインを提案します。
私たちは、2 つの一般的な VLN データセットで 2 つの代表的な VLN モデルのいくつかの説明方法を評価し、実験を通じて貴重な発見を明らかにしました。

要約(オリジナル)

The ability to navigate robots with natural language instructions in an unknown environment is a crucial step for achieving embodied artificial intelligence (AI). With the improving performance of deep neural models proposed in the field of vision-and-language navigation (VLN), it is equally interesting to know what information the models utilize for their decision-making in the navigation tasks. To understand the inner workings of deep neural models, various explanation methods have been developed for promoting explainable AI (XAI). But they are mostly applied to deep neural models for image or text classification tasks and little work has been done in explaining deep neural models for VLN tasks. In this paper, we address these problems by building quantitative benchmarks to evaluate explanation methods for VLN models in terms of faithfulness. We propose a new erasure-based evaluation pipeline to measure the step-wise textual explanation in the sequential decision-making setting. We evaluate several explanation methods for two representative VLN models on two popular VLN datasets and reveal valuable findings through our experiments.

arxiv情報

著者 Guanqi Chen,Lei Yang,Guanhua Chen,Jia Pan
発行日 2023-10-10 14:22:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク