Libra: Building Decoupled Vision System on Large Language Models

要約

この研究では、大規模言語モデル (LLM) 上に分離されたビジョン システムを備えたプロトタイプ モデルである Libra を紹介します。
分離されたビジョン システムは、内部モーダル モデリングとクロスモーダル インタラクションを分離し、独自の視覚情報モデリングと効果的なクロスモーダル理解をもたらします。
Libra は、視覚と言語入力の両方に対する離散自己回帰モデリングを通じてトレーニングされます。
具体的には、クロスモーダル ブリッジ モジュールを備えたルーティングされたビジュアル エキスパートを事前トレーニング済み LLM に組み込んで、アテンション コンピューティング中にビジョンと言語フローをルーティングし、内部モーダル モデリングとクロスモーダル インタラクション シナリオでさまざまなアテンション パターンを可能にします。
実験結果は、Libra の専用設計が、画像からテキストへのシナリオにおいて、わずか 5,000 万のトレーニング データで既存の作品に匹敵する強力な MLLM ベースラインを達成し、将来のマルチモーダル基盤モデルに新たな視点を提供することを示しています。
コードは https://github.com/YifanXu74/Libra で入手できます。

要約(オリジナル)

In this work, we introduce Libra, a prototype model with a decoupled vision system on a large language model (LLM). The decoupled vision system decouples inner-modal modeling and cross-modal interaction, yielding unique visual information modeling and effective cross-modal comprehension. Libra is trained through discrete auto-regressive modeling on both vision and language inputs. Specifically, we incorporate a routed visual expert with a cross-modal bridge module into a pretrained LLM to route the vision and language flows during attention computing to enable different attention patterns in inner-modal modeling and cross-modal interaction scenarios. Experimental results demonstrate that the dedicated design of Libra achieves a strong MLLM baseline that rivals existing works in the image-to-text scenario with merely 50 million training data, providing a new perspective for future multimodal foundation models. Code is available at https://github.com/YifanXu74/Libra.

arxiv情報

著者 Yifan Xu,Xiaoshan Yang,Yaguang Song,Changsheng Xu
発行日 2024-05-16 14:34:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク