Joint Adaptive Representations for Image-Language Learning

要約

画像言語学習は、視覚理解において前例のない進歩をもたらしました。
現代の視覚言語モデルは大規模なモデル規模と大量のデータを必要とするため、これらの開発には高額なコストがかかります。
ここでは、画像言語学習のためのはるかに簡単なレシピを提案します。このレシピは、多くの場合桁違いに大きなデータセットでトレーニングされた、大規模で高価なモデルよりも優れたパフォーマンスを発揮する効果的なモデルを生成します。
私たちの重要な発見は、マルチモーダルな機能を適応的かつ反復的に融合する、コンパクトな視覚と言語表現の共同学習です。
これにより、より効果的な画像言語学習が実現し、テキストと画像の両方のトークンの数を組み合わせて減らすことで FLOP が大幅に低下します。
一般的な画像言語モデルで使用されるベースライン融合技術と比較して、パフォーマンスを向上させながら、FLOP の 33% 削減が達成されます。
これにより、FLOP やメモリを大幅に増加させることなくモデルを拡張することもできます。
さらに、データ効率を向上させる適応的な事前トレーニング データ サンプリングを提案します。
提案されたアプローチは、はるかに大規模なモデルと比較して競争力のあるパフォーマンスを実現し、大幅に少ないデータと FLOP でそれを実現します。
わずか 4,000 万のトレーニング サンプルと 39 GFLOP を使用した軽量モデルは、2 ~ 20 倍の FLOP を持ち、一部には 10 億近いトレーニング サンプルを含むより大きなデータセットを使用する、大規模な最先端のモデルよりも優れたパフォーマンスを発揮します。

要約(オリジナル)

Image-language learning has made unprecedented progress in visual understanding. These developments have come at high costs, as contemporary vision-language models require large model scales and amounts of data. We here propose a much easier recipe for image-language learning, which produces effective models, outperforming bigger and more expensive ones, often trained on orders of magnitude larger datasets. Our key finding is the joint learning of a compact vision and language representation, which adaptively and iteratively fuses the multi-modal features. This results in a more effective image-language learning, greatly lowering the FLOPs by combining and reducing the number of tokens for both text and images, e.g. a 33\% reduction in FLOPs is achieved, compared to baseline fusion techniques used by popular image-language models, while improving performance. This also allows the model to scale without a large increase in FLOPs or memory. In addition, we propose adaptive pre-training data sampling which improves the data efficiency. The proposed approach achieves competitive performance compared to much larger models, and does so with significantly less data and FLOPs. With only 40M training examples and with 39 GFLOPs our lightweight model outperforms many times larger state-of-the-art models of 2-20x more FLOPs and using bigger datasets some of which with close to 1B training examples.

arxiv情報

著者 AJ Piergiovanni,Anelia Angelova
発行日 2023-06-01 12:41:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク