視覚言語 (VL) 事前トレーニングは、最近かなりの注目を集めています。
ただし、ほとんどの既存のエンドツーエンドの事前トレーニング アプローチは、画像テキスト検索、視覚的質問応答 (VQA)、および画像の高レベルの理解をテストする画像キャプションなどの VL タスクに取り組むことのみを目的としているか、またはターゲット領域のみを目的としています。
これらのタイプのタスクをシームレスに処理できる新しい VL モデル アーキテクチャである FIBER (Fusion-In-the-Backbone-based TransformER) を紹介します。
ユニモーダル バックボーンの後にフュージョン専用のトランスフォーマー レイヤーを配置する代わりに、FIBER は、画像とテキスト バックボーンにクロスアテンションを挿入することでマルチモーダル フュージョンをモデルの奥深くに押し込み、メモリとパフォーマンスの面でメリットをもたらします。
さらに、画像テキスト データまたはボックス レベルの注釈を含むきめの細かいデータのみで事前トレーニングされた以前の作業とは異なり、これらの種類のデータを効率的に使用する 2 段階の事前トレーニング戦略を提示します。
i) 画像テキスト データに基づく粗粒度の事前トレーニング。
(ii) image-text-box データに基づくきめの細かい事前トレーニングが続きます。
FIBER は、2 段階の事前トレーニングと組み合わせた深いマルチモーダル フュージョンを使用して、すべてのタスクで強力なベースラインよりも一貫したパフォーマンスの向上を提供し、多くの場合、より多くのデータを使用する方法よりも優れています。
コードは https://github.com/microsoft/FIBER で入手できます。
Vision-language (VL) pre-training has recently received considerable attention. However, most existing end-to-end pre-training approaches either only aim to tackle VL tasks such as image-text retrieval, visual question answering (VQA) and image captioning that test high-level understanding of images, or only target region-level understanding for tasks such as phrase grounding and object detection. We present FIBER (Fusion-In-the-Backbone-based transformER), a new VL model architecture that can seamlessly handle both these types of tasks. Instead of having dedicated transformer layers for fusion after the uni-modal backbones, FIBER pushes multimodal fusion deep into the model by inserting cross-attention into the image and text backbones, bringing gains in terms of memory and performance. In addition, unlike previous work that is either only pre-trained on image-text data or on fine-grained data with box-level annotations, we present a two-stage pre-training strategy that uses both these kinds of data efficiently: (i) coarse-grained pre-training based on image-text data; followed by (ii) fine-grained pre-training based on image-text-box data. We conduct comprehensive experiments on a wide range of VL tasks, ranging from VQA, image captioning, and retrieval, to phrase grounding, referring expression comprehension, and object detection. Using deep multimodal fusion coupled with the two-stage pre-training, FIBER provides consistent performance improvements over strong baselines across all tasks, often outperforming methods using magnitudes more data. Code is available at https://github.com/microsoft/FIBER.
著者 | Zi-Yi Dou,Aishwarya Kamath,Zhe Gan,Pengchuan Zhang,Jianfeng Wang,Linjie Li,Zicheng Liu,Ce Liu,Yann LeCun,Nanyun Peng,Jianfeng Gao,Lijuan Wang |
発行日 | 2022-11-18 18:23:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google