SAISA: Towards Multimodal Large Language Models with Both Training and Inference Efficiency

要約

マルチモーダル大規模言語モデル(MLLM)は主に2つのアーキテクチャに分類され、それぞれ学習効率と推論効率のトレードオフを伴う:埋め込み空間アライメント(例えばLLaVA-1.5)は推論時に非効率的であり、一方、交差注意空間アライメント(例えばFlamingo)は学習時に非効率的である。本稿では、これら2つのアーキテクチャを比較し、効率的なMLLMを構築するための重要な要素を明らかにする。両者の主な違いは、視覚トークンへの注意の向け方、特に視覚トークン同士の相互作用にある。視覚的トークン間の注意が必要かどうかを調べるために、我々は新しい自己注意メカニズムNAAViT(˶‾᷄‾᷅˵)を提案し、この種の注意を排除する。LLaVA-1.5でのパイロット実験では、視覚的トークン間の注意は非常に冗長であることが示された。これらの洞察に基づき、学習と推論の効率を向上させる新しいアーキテクチャであるSAISA( \textbf{S}self-textbf{A}ttention \textbf{I}nput \textbf{S}space ¤textbf{A}lignment)を導入する。SAISAは視覚的特徴をNAAViT自己注意ブロックの入力空間に直接整列させ、自己注意ブロックとフィードフォワードネットワーク(FFN)の両方で計算オーバーヘッドを削減する。LLaVA-1.5と同じ構成を使って、SAISAは、精度の面で優れた性能を達成しながら、推論FLOPを66%削減し、学習予算を26%削減した。包括的なアブレーション研究により、様々なLLMと視覚エンコーダにおけるSAISAの有効性がさらに検証された。コードとモデルはhttps://github.com/icip-cas/SAISA。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) mainly fall into two architectures, each involving a trade-off between training and inference efficiency: embedding space alignment (e.g., LLaVA-1.5) is inefficient during inference, while cross-attention space alignment (e.g., Flamingo) is inefficient in training. In this paper, we compare these two architectures and identify the key factors for building efficient MLLMs. A primary difference between them lies in how attention is applied to visual tokens, particularly in their interactions with each other. To investigate whether attention among visual tokens is necessary, we propose a new self-attention mechanism, NAAViT (\textbf{N}o \textbf{A}ttention \textbf{A}mong \textbf{Vi}sual \textbf{T}okens), which eliminates this type of attention. Our pilot experiment on LLaVA-1.5 shows that attention among visual tokens is highly redundant. Based on these insights, we introduce SAISA (\textbf{S}elf-\textbf{A}ttention \textbf{I}nput \textbf{S}pace \textbf{A}lignment), a novel architecture that enhance both training and inference efficiency. SAISA directly aligns visual features with the input spaces of NAAViT self-attention blocks, reducing computational overhead in both self-attention blocks and feed-forward networks (FFNs). Using the same configuration as LLaVA-1.5, SAISA reduces inference FLOPs by 66\% and training budget by 26\%, while achieving superior performance in terms of accuracy. Comprehensive ablation studies further validate the effectiveness of SAISA across various LLMs and visual encoders. The code and model will be publicly available at https://github.com/icip-cas/SAISA.

arxiv情報

著者 Qianhao Yuan,Yanjiang Liu,Yaojie Lu,Hongyu Lin,Ben He,Xianpei Han,Le Sun
発行日 2025-02-04 16:28:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV パーマリンク