要約
近年、Two-Tower アーキテクチャを使用した視覚言語 (VL) モデルが、視覚言語表現学習を支配しています。
現在の VL モデルは、軽量のユニモーダル エンコーダーを使用し、ディープ クロスモーダル エンコーダーで両方のモダリティを同時に抽出、調整、融合することを学習するか、ディープ トレーニング済みユニモーダル エンコーダーから最後のレイヤーのユニモーダル表現を
一番上のクロスモーダルエンコーダー。
どちらのアプローチも、視覚言語表現の学習を制限し、モデルのパフォーマンスを制限する可能性があります。
このホワイト ペーパーでは、ユニモーダル エンコーダーの最上位レイヤーとクロスモーダル エンコーダーの各レイヤー間の接続を構築する複数のブリッジ レイヤーを導入する BridgeTower を提案します。
これにより、効果的なボトムアップ クロスモーダル アラインメントと、クロスモーダル エンコーダー内の事前トレーニング済みユニモーダル エンコーダーの異なるセマンティック レベルの視覚表現とテキスト表現の融合が可能になります。
BridgeTower は、4M 画像のみで事前トレーニングされており、さまざまなダウンストリーム ビジョン言語タスクで最先端のパフォーマンスを実現します。
特に、VQAv2 テスト標準セットでは、BridgeTower は 78.73% の精度を達成し、同じ事前トレーニング データとほとんど無視できる追加パラメーターと計算コストで、以前の最先端モデル METER を 1.09% 上回っています。
特に、モデルをさらにスケーリングすると、BridgeTower は 81.15% の精度を達成し、桁違いの大規模なデータセットで事前トレーニングされたモデルを上回ります。
コードとチェックポイントは、https://github.com/microsoft/BridgeTower で入手できます。
要約(オリジナル)
Vision-Language (VL) models with the Two-Tower architecture have dominated visual-language representation learning in recent years. Current VL models either use lightweight uni-modal encoders and learn to extract, align and fuse both modalities simultaneously in a deep cross-modal encoder, or feed the last-layer uni-modal representations from the deep pre-trained uni-modal encoders into the top cross-modal encoder. Both approaches potentially restrict vision-language representation learning and limit model performance. In this paper, we propose BridgeTower, which introduces multiple bridge layers that build a connection between the top layers of uni-modal encoders and each layer of the cross-modal encoder. This enables effective bottom-up cross-modal alignment and fusion between visual and textual representations of different semantic levels of pre-trained uni-modal encoders in the cross-modal encoder. Pre-trained with only 4M images, BridgeTower achieves state-of-the-art performance on various downstream vision-language tasks. In particular, on the VQAv2 test-std set, BridgeTower achieves an accuracy of 78.73%, outperforming the previous state-of-the-art model METER by 1.09% with the same pre-training data and almost negligible additional parameters and computational costs. Notably, when further scaling the model, BridgeTower achieves an accuracy of 81.15%, surpassing models that are pre-trained on orders-of-magnitude larger datasets. Code and checkpoints are available at https://github.com/microsoft/BridgeTower.
arxiv情報
著者 | Xiao Xu,Chenfei Wu,Shachar Rosenman,Vasudev Lal,Wanxiang Che,Nan Duan |
発行日 | 2023-02-02 16:22:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google