ViLTA: Enhancing Vision-Language Pre-training through Textual Augmentation

要約

視覚言語事前トレーニング (VLP) 手法は最近開花しつつあり、その重要な目標は、トランスフォーマー ベースのアーキテクチャを介して視覚的特徴とテキスト特徴を共同で学習することであり、さまざまな視覚言語タスクの有望な改善を実証します。
従来技術は通常、視覚的特徴とテキスト的特徴をどのように調整するかに焦点を当てているが、モデルの堅牢性を向上させ、モデルの収束を高速化するための戦略は十分に検討されていない。
この論文では、モデルが画像とテキストのペア間のきめ細かい表現を学習することをさらに容易にする 2 つのコンポーネントで構成される新しい方法 ViLTA を提案します。
マスク言語モデリング (MLM) については、モデルの堅牢性を高めるためにソフト ラベルを生成するクロス蒸留法を提案します。これにより、マスクされた単語の同義語をワンホット ラベルのネガティブ サンプルとして扱う問題が軽減されます。
画像テキストマッチング (ITM) では、現在の言語エンコーダーを利用して、言語入力のコンテキストに基づいてハード ネガを合成し、ITM タスクの難易度を高めることでモデルが高品質の表現を学習するように促します。
上記のテクニックを活用することで、ViLTA はさまざまな視覚言語タスクでより優れたパフォーマンスを達成できます。
ベンチマーク データセットに関する広範な実験により、ViLTA の有効性と、視覚言語の事前トレーニングに対するその有望な可能性が実証されました。

要約(オリジナル)

Vision-language pre-training (VLP) methods are blossoming recently, and its crucial goal is to jointly learn visual and textual features via a transformer-based architecture, demonstrating promising improvements on a variety of vision-language tasks. Prior arts usually focus on how to align visual and textual features, but strategies for improving the robustness of model and speeding up model convergence are left insufficiently explored. In this paper, we propose a novel method ViLTA, comprising of two components to further facilitate the model to learn fine-grained representations among image-text pairs. For Masked Language Modeling (MLM), we propose a cross-distillation method to generate soft labels to enhance the robustness of model, which alleviates the problem of treating synonyms of masked words as negative samples in one-hot labels. For Image-Text Matching (ITM), we leverage the current language encoder to synthesize hard negatives based on the context of language input, encouraging the model to learn high-quality representations by increasing the difficulty of the ITM task. By leveraging the above techniques, our ViLTA can achieve better performance on various vision-language tasks. Extensive experiments on benchmark datasets demonstrate that the effectiveness of ViLTA and its promising potential for vision-language pre-training.

arxiv情報

著者 Weihan Wang,Zhen Yang,Bin Xu,Juanzi Li,Yankui Sun
発行日 2023-08-31 12:46:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク