Bridging the visual gap in VLN via semantically richer instructions

要約

Visual-and-Language Navigation (VLN) タスクでは、視覚情報のみを使用して自然な屋内環境をナビゲートするためのテキストによる指示を理解する必要があります。
これはほとんどの人間にとっては些細な作業ですが、AI モデルにとっては未解決の問題です。
この作業では、現在のモデルのパフォーマンスの低さの核心にあるのは、利用可能な視覚情報の使い方の悪さであるという仮説を立てています。
この仮説を支持するために、最先端のモデルは、視覚データが限られているかまったくない場合でも深刻な影響を受けないことを示す実験的証拠を提供します。
視覚情報のより適切な使用を促進するために、テキストのナビゲーション指示の生成により明確な視覚情報を含めることを促進する新しいデータ拡張方法を提案します。
私たちの主な直感は、現在の VLN データセットには、ランダムに初期化された DL モデルなどの初心者の視覚的ナビゲーション エージェントではなく、人間などの専門のナビゲーターに通知することを目的としたテキストの指示が含まれているということです。
具体的には、現在の VLN データセットの視覚的なセマンティック ギャップを埋めるために、特にシーンに存在するオブジェクト ラベルに関する情報を含む Matterport3D データセットで利用可能なメタデータを利用します。
新しい一連の命令を使用して最先端のモデルをトレーニングすると、目に見えない環境での成功率に関してパフォーマンスが 8% 向上し、提案されたデータ拡張方法の利点が実証されました。

要約(オリジナル)

The Visual-and-Language Navigation (VLN) task requires understanding a textual instruction to navigate a natural indoor environment using only visual information. While this is a trivial task for most humans, it is still an open problem for AI models. In this work, we hypothesize that poor use of the visual information available is at the core of the low performance of current models. To support this hypothesis, we provide experimental evidence showing that state-of-the-art models are not severely affected when they receive just limited or even no visual data, indicating a strong overfitting to the textual instructions. To encourage a more suitable use of the visual information, we propose a new data augmentation method that fosters the inclusion of more explicit visual information in the generation of textual navigational instructions. Our main intuition is that current VLN datasets include textual instructions that are intended to inform an expert navigator, such as a human, but not a beginner visual navigational agent, such as a randomly initialized DL model. Specifically, to bridge the visual semantic gap of current VLN datasets, we take advantage of metadata available for the Matterport3D dataset that, among others, includes information about object labels that are present in the scenes. Training a state-of-the-art model with the new set of instructions increase its performance by 8% in terms of success rate on unseen environments, demonstrating the advantages of the proposed data augmentation method.

arxiv情報

著者 Joaquin Ossandón,Benjamin Earle,Álvaro Soto
発行日 2022-10-27 15:58:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク