要約
継続的環境におけるビジョンと言語のナビゲーション (VLN-CE) タスクでは、人間のユーザーが、自然言語によるテキストの指示に続く一連の低レベルのアクションを通じて、自律エージェントが目標に到達するように導きます。
しかし、既存の方法のほとんどは、そのような指示を提供する際にユーザーが間違いを犯す可能性が高いケース (例: 「右折」の代わりに「左折」) に対処していません。
この研究では、継続的環境における対話型 VLN (IVLN-CE) の新しいタスクに取り組みます。これにより、エージェントは VLN-CE ナビゲーション中にユーザーと対話して、指示エラーに関する疑問を検証できます。
ナビゲーション中に命令エラーが検出されると、ユーザーとエージェントの対話をトリガーする対話型命令エラー検出器およびローカライザー (I2EDL) を提案します。
事前トレーニングされたモジュールを利用して命令エラーを検出し、テキスト入力と過去の観察を相互参照することで命令内でエラーを特定します。
このようにして、可能性のあるエラーを指示の正確な部分に特定するため、エージェントはユーザーの認知負荷を要求することなく、タイムリーな修正をユーザーに問い合わせることができます。
提案された I2EDL をエラーを含む命令のデータセットで評価し、ナビゲーション パフォーマンスとインタラクションの有効性の両方を反映する新しい指標であるインタラクション数 (SIN) によって重み付けされた成功をさらに考案します。
提案された方法がどのようにユーザーに修正要求を集中的に求めることができるかを示します。これにより、インタラクションを最小限に抑えながら、ナビゲーションの成功率が向上します。
要約(オリジナル)
In the Vision-and-Language Navigation in Continuous Environments (VLN-CE) task, the human user guides an autonomous agent to reach a target goal via a series of low-level actions following a textual instruction in natural language. However, most existing methods do not address the likely case where users may make mistakes when providing such instruction (e.g. ‘turn left’ instead of ‘turn right’). In this work, we address a novel task of Interactive VLN in Continuous Environments (IVLN-CE), which allows the agent to interact with the user during the VLN-CE navigation to verify any doubts regarding the instruction errors. We propose an Interactive Instruction Error Detector and Localizer (I2EDL) that triggers the user-agent interaction upon the detection of instruction errors during the navigation. We leverage a pre-trained module to detect instruction errors and pinpoint them in the instruction by cross-referencing the textual input and past observations. In such way, the agent is able to query the user for a timely correction, without demanding the user’s cognitive load, as we locate the probable errors to a precise part of the instruction. We evaluate the proposed I2EDL on a dataset of instructions containing errors, and further devise a novel metric, the Success weighted by Interaction Number (SIN), to reflect both the navigation performance and the interaction effectiveness. We show how the proposed method can ask focused requests for corrections to the user, which in turn increases the navigation success, while minimizing the interactions.
arxiv情報
著者 | Francesco Taioli,Stefano Rosa,Alberto Castellini,Lorenzo Natale,Alessio Del Bue,Alessandro Farinelli,Marco Cristani,Yiming Wang |
発行日 | 2024-06-07 16:52:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google