Behavioral Analysis of Vision-and-Language Navigation Agents

要約

成功するには、視覚と言語のナビゲーション (VLN) エージェントが、周囲の状況に基づいて指示を行動に移すことができなければなりません。
この研究では、スキル固有のベースでエージェントの行動を研究するための方法論を開発し、既存のエージェントが停止、方向転換、指定された物体や部屋に向かって移動するという指示をどの程度理解しているかを調査します。
私たちのアプローチは、スキル固有の介入を生成し、エージェントの予測の変化を測定することに基づいています。
最近のエージェントの行動を分析した詳細なケーススタディを提示し、スキル固有のコンピテンシー スコアの観点から複数のエージェントを比較します。
この分析は、トレーニングによるバイアスがエージェントの行動に永続的な影響を及ぼし、既存のモデルが単純な参照表現を根拠にできることを示唆しています。
モデル間の比較では、スキル固有のスコアが VLN タスク全体のパフォーマンスの向上と相関していることがわかります。

要約(オリジナル)

To be successful, Vision-and-Language Navigation (VLN) agents must be able to ground instructions to actions based on their surroundings. In this work, we develop a methodology to study agent behavior on a skill-specific basis — examining how well existing agents ground instructions about stopping, turning, and moving towards specified objects or rooms. Our approach is based on generating skill-specific interventions and measuring changes in agent predictions. We present a detailed case study analyzing the behavior of a recent agent and then compare multiple agents in terms of skill-specific competency scores. This analysis suggests that biases from training have lasting effects on agent behavior and that existing models are able to ground simple referring expressions. Our comparisons between models show that skill-specific scores correlate with improvements in overall VLN task performance.

arxiv情報

著者 Zijiao Yang,Arjun Majumdar,Stefan Lee
発行日 2023-07-20 11:42:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, I.2.9 パーマリンク