Behavioral Analysis of Vision-and-Language Navigation Agents


成功するには、視覚と言語のナビゲーション (VLN) エージェントが、周囲の状況に基づいて指示を行動に移すことができなければなりません。
最近のエージェントの行動を分析した詳細なケーススタディを提示し、スキル固有のコンピテンシー スコアの観点から複数のエージェントを比較します。
モデル間の比較では、スキル固有のスコアが VLN タスク全体のパフォーマンスの向上と相関していることがわかります。


To be successful, Vision-and-Language Navigation (VLN) agents must be able to ground instructions to actions based on their surroundings. In this work, we develop a methodology to study agent behavior on a skill-specific basis — examining how well existing agents ground instructions about stopping, turning, and moving towards specified objects or rooms. Our approach is based on generating skill-specific interventions and measuring changes in agent predictions. We present a detailed case study analyzing the behavior of a recent agent and then compare multiple agents in terms of skill-specific competency scores. This analysis suggests that biases from training have lasting effects on agent behavior and that existing models are able to ground simple referring expressions. Our comparisons between models show that skill-specific scores correlate with improvements in overall VLN task performance.


著者 Zijiao Yang,Arjun Majumdar,Stefan Lee
発行日 2023-07-20 11:42:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV, cs.RO, I.2.9 パーマリンク