Croc: Pretraining Large Multimodal Models with Cross-Modal Comprehension

要約

大規模言語モデル (LLM) の最近の進歩により、大規模マルチモーダル モデル (LMM) の開発が促進されました。
しかし、既存の研究は主に言語と画像の命令の調整に焦点を当てており、モデルがテキストと視覚のモダリティを共同で処理することを学習する重要な事前トレーニング段階を無視しています。
この論文では、新しいクロスモーダル理解段階を導入することにより、LLM の視覚的理解能力を強化するための LMM の新しい事前トレーニング パラダイムを提案します。
具体的には、動的に学習可能なプロンプト トークン プールを設計し、ハンガリーのアルゴリズムを採用して、元のビジュアル トークンの一部を最も関連性の高いプロンプト トークンに置き換えます。
次に、視覚トークンをLLMにとっての「外国語」に類似したものとして概念化し、視覚トークンの理解を包括的に強化するために、双方向の視覚的注意と一方向のテキスト注意を備えた混合注意メカニズムを提案します。
その一方で、豊富な説明を活用して詳細なキャプション生成タスクを統合し、LLM による視覚的な意味情報の理解をさらに促進します。
150 万の公的にアクセス可能なデータで事前トレーニングした後、Croc と呼ばれる新しい基礎モデルを提示します。
実験結果は、Croc が大規模なビジョン言語ベンチマークで新しい最先端のパフォーマンスを達成することを示しています。
再現性をサポートし、さらなる研究を促進するために、トレーニング コードと事前トレーニングされたモデルの重みを https://github.com/deepglint/Croc でリリースします。

要約(オリジナル)

Recent advances in Large Language Models (LLMs) have catalyzed the development of Large Multimodal Models (LMMs). However, existing research primarily focuses on tuning language and image instructions, ignoring the critical pretraining phase where models learn to process textual and visual modalities jointly. In this paper, we propose a new pretraining paradigm for LMMs to enhance the visual comprehension capabilities of LLMs by introducing a novel cross-modal comprehension stage. Specifically, we design a dynamically learnable prompt token pool and employ the Hungarian algorithm to replace part of the original visual tokens with the most relevant prompt tokens. Then, we conceptualize visual tokens as analogous to a ‘foreign language’ for the LLMs and propose a mixed attention mechanism with bidirectional visual attention and unidirectional textual attention to comprehensively enhance the understanding of visual tokens. Meanwhile, we integrate a detailed caption generation task, leveraging rich descriptions to further facilitate LLMs in understanding visual semantic information. After pretraining on 1.5 million publicly accessible data, we present a new foundation model called Croc. Experimental results demonstrate that Croc achieves new state-of-the-art performance on massive vision-language benchmarks. To support reproducibility and facilitate further research, we release the training code and pre-trained model weights at https://github.com/deepglint/Croc.

arxiv情報

著者 Yin Xie,Kaicheng Yang,Ninghua Yang,Weimo Deng,Xiangzi Dai,Tiancheng Gu,Yumeng Wang,Xiang An,Yongle Zhao,Ziyong Feng,Jiankang Deng
発行日 2024-10-18 09:44:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク