EE-MLLM: A Data-Efficient and Compute-Efficient Multimodal Large Language Model

要約

マルチモーダル研究の分野では、多くの研究が実質的な画像とテキストのペアを活用してモーダルアライメント学習を実施し、大規模言語モデル (LLM) をマルチモーダル LLM に変換し、さまざまな視覚言語タスクに優れています。
一般的な方法論は主に、自己注意ベースの方法と相互注意ベースの方法の 2 つのカテゴリに分類されます。
セルフ アテンション ベースの手法は、シンプルな MLP アーキテクチャにより優れたデータ効率を提供しますが、LLM の入力としてビジュアル トークンとテキスト トークンを連結するため、計算効率が低下することがよくあります。
逆に、クロスアテンションベースの手法は、学習可能なパラメータが追加されるためデータ効率は低くなりますが、LLM の長いシーケンス入力を回避することで高い計算効率を示します。
これらのトレードオフに対処するために、データ効率と計算効率の高いマルチモーダル大規模言語モデル (EE-MLLM) を導入します。
追加のモジュールや学習可能なパラメータを導入することなく、EE-MLLM はデータ効率と計算効率の両方を実現します。
具体的には、MLLM の元の自己注意メカニズムを複合注意メカニズムに変更します。
このメカニズムには 2 つの重要な特徴があります。1) 視覚トークン内のセルフアテンションの計算オーバーヘッドを排除して計算効率を達成すること、2) LLM の各層で重みを再利用して、データ効率を高めるために視覚と言語の間の効果的なモダリティ調整を促進することです。
実験結果は、MMBench や SeedBench などの汎用データセットだけでなく、TextVQA や DocVQA などのきめ細かいタスクを含む、さまざまなベンチマークにわたって EE-MLLM の有効性を示しています。

要約(オリジナル)

In the realm of multimodal research, numerous studies leverage substantial image-text pairs to conduct modal alignment learning, transforming Large Language Models (LLMs) into Multimodal LLMs and excelling in a variety of visual-language tasks. The prevailing methodologies primarily fall into two categories: self-attention-based and cross-attention-based methods. While self-attention-based methods offer superior data efficiency due to their simple MLP architecture, they often suffer from lower computational efficiency due to concatenating visual and textual tokens as input for LLM. Conversely, cross-attention-based methods, although less data-efficient due to additional learnable parameters, exhibit higher computational efficiency by avoiding long sequence input for LLM. To address these trade-offs, we introduce the Data-Efficient and Compute-Efficient Multimodal Large Language Model (EE-MLLM). Without introducing additional modules or learnable parameters, EE-MLLM achieves both data and compute efficiency. Specifically, we modify the original self-attention mechanism in MLLM to a composite attention mechanism. This mechanism has two key characteristics: 1) Eliminating the computational overhead of self-attention within visual tokens to achieve compute efficiency, and 2) Reusing the weights on each layer of LLM to facilitate effective modality alignment between vision and language for data efficiency. Experimental results demonstrate the effectiveness of EE-MLLM across a range of benchmarks, including general-purpose datasets like MMBench and SeedBench, as well as fine-grained tasks such as TextVQA and DocVQA.

arxiv情報

著者 Feipeng Ma,Yizhou Zhou,Hebei Li,Zilong He,Siying Wu,Fengyun Rao,Yueyi Zhang,Xiaoyan Sun
発行日 2024-08-21 17:36:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク