Does VLN Pretraining Work with Nonsensical or Irrelevant Instructions?

要約

逆変換によるデータ拡張は、生成された命令にノイズが多い場合でも、ビジョンと言語ナビゲーション (VLN) モデルを事前トレーニングするときによく行われます。
しかし、その騒音は問題なのでしょうか?
事前トレーニング中の無意味または無関係な言語命令は、R2R 上の HAMT と VLN-BERT の両方のダウンストリーム パフォーマンスにほとんど影響を及ぼさず、クリーンな人間のデータのみを使用するよりも優れていることがわかりました。
これらの結果を強調するために、私たちは効率的な拡張手法である Unigram + Object を考案しました。これは、ダウンストリームのパフォーマンスを向上させる無意味な命令を生成します。
私たちの調査結果は、VLN R2R の事前トレーニングで重要なのは、指示の質ではなく、視覚的な軌跡の量であることを示唆しています。

要約(オリジナル)

Data augmentation via back-translation is common when pretraining Vision-and-Language Navigation (VLN) models, even though the generated instructions are noisy. But: does that noise matter? We find that nonsensical or irrelevant language instructions during pretraining can have little effect on downstream performance for both HAMT and VLN-BERT on R2R, and is still better than only using clean, human data. To underscore these results, we concoct an efficient augmentation method, Unigram + Object, which generates nonsensical instructions that nonetheless improve downstream performance. Our findings suggest that what matters for VLN R2R pretraining is the quantity of visual trajectories, not the quality of instructions.

arxiv情報

著者 Wang Zhu,Ishika Singh,Yuan Huang,Robin Jia,Jesse Thomason
発行日 2023-12-19 14:04:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク