LLaVolta: Efficient Multi-modal Models via Stage-wise Visual Context Compression

要約

大規模言語モデル (LLM) でのテキスト埋め込みの圧縮表現では大幅な進歩が見られましたが、大規模マルチモーダル モデル (LMM) でのビジュアル トークンの圧縮は依然としてほとんど見落とされている領域です。
この研究では、ビジュアル トークンに関する冗長性の分析と、これらのモデル内での効率的なトレーニングに関する研究を紹介します。
私たちの初期実験では、単に平均プーリングによってテスト段階で最大 70% のビジュアル トークンを削除しても、GQA ベンチマークにおけるビジュアルな質問の回答精度は最小限 3% 低下するだけであり、ビジュアル コンテキストの大幅な冗長性を示しています。
これに対処するために、トレーニング中のビジュアル トークンの数を減らし、パフォーマンスを犠牲にすることなくトレーニングの効率を高める Visual Context Compressor を導入します。
トレーニング効率を維持しながら、ビジュアル トークンの圧縮による情報損失を最小限に抑えるために、LLaVolta をライト トレーニング スキームとして開発しました。
LLaVolta には段階的なビジュアル コンテキスト圧縮が組み込まれており、ビジュアル トークンを重度から軽度に段階的に圧縮し、最終的にトレーニングの最後には圧縮を行わないため、テスト時に情報が失われることはありません。
広範な実験により、私たちのアプローチが画像言語とビデオ言語の両方の理解において MLLM のパフォーマンスを向上させ、同時にトレーニング コストを大幅に削減できることが実証されました。
コードは https://github.com/Beckschen/LLaVolta で入手できます。

要約(オリジナル)

While significant advancements have been made in compressed representations for text embeddings in large language models (LLMs), the compression of visual tokens in large multi-modal models (LMMs) has remained a largely overlooked area. In this work, we present the study on the analysis of redundancy concerning visual tokens and efficient training within these models. Our initial experiments show that eliminating up to 70% of visual tokens at the testing stage by simply average pooling only leads to a minimal 3% reduction in visual question answering accuracy on the GQA benchmark, indicating significant redundancy in visual context. Addressing this, we introduce Visual Context Compressor, which reduces the number of visual tokens during training to enhance training efficiency without sacrificing performance. To minimize information loss caused by the compression on visual tokens while maintaining training efficiency, we develop LLaVolta as a lite training scheme. LLaVolta incorporates stage-wise visual context compression to progressively compress the visual tokens from heavily to lightly, and finally no compression at the end of training, yielding no loss of information when testing. Extensive experiments demonstrate that our approach enhances the performance of MLLMs in both image-language and video-language understanding, while also significantly cutting training costs. Code is available at https://github.com/Beckschen/LLaVolta

arxiv情報

著者 Jieneng Chen,Luoxin Ye,Ju He,Zhao-Yang Wang,Daniel Khashabi,Alan Yuille
発行日 2024-06-28 17:57:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク