LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture

要約

マルチモーダル大規模言語モデル (MLLM) のロングコンテキスト機能を拡張することは、ビデオの理解、高解像度の画像の理解、およびマルチモーダル エージェントにとって重要です。
これには、モデル アーキテクチャ、データ構築、トレーニング戦略を含む一連の体系的な最適化が含まれ、特に \textit{画像が増えるとパフォーマンスが低下する} や \textit{高い計算コスト} などの課題に対処します。
この論文では、モデル アーキテクチャを Mamba ブロックと Transformer ブロックのハイブリッドに適応させ、複数の画像間の時間的および空間的依存性の両方を備えたデータ構築にアプローチし、プログレッシブ トレーニング戦略を採用します。
リリースされたモデル \textbf{LongLLaVA}~(\textbf{Long}-Context \textbf{L}arge \textbf{L}anguage \textbf{a}nd \textbf{V}ision \textbf{A}ssistant) は、
最初のハイブリッド MLLM は、効率と有効性の間のより良いバランスを実現しました。
LongLLaVA は、さまざまなベンチマークにわたって競争力のある結果を達成するだけでなく、高いスループットと低いメモリ消費量も維持します。
特に、単一の A100 80GB GPU でほぼ 1,000 枚の画像を処理でき、幅広いタスクに対する有望なアプリケーションの見通しを示しています。

要約(オリジナル)

Expanding the long-context capabilities of Multi-modal Large Language Models~(MLLMs) is crucial for video understanding, high-resolution image understanding, and multi-modal agents. This involves a series of systematic optimizations, including model architecture, data construction and training strategy, particularly addressing challenges such as \textit{degraded performance with more images} and \textit{high computational costs}. In this paper, we adapt the model architecture to a hybrid of Mamba and Transformer blocks, approach data construction with both temporal and spatial dependencies among multiple images and employ a progressive training strategy. The released model \textbf{LongLLaVA}~(\textbf{Long}-Context \textbf{L}arge \textbf{L}anguage \textbf{a}nd \textbf{V}ision \textbf{A}ssistant) is the first hybrid MLLM, which achieved a better balance between efficiency and effectiveness. LongLLaVA not only achieves competitive results across various benchmarks, but also maintains high throughput and low memory consumption. Especially, it could process nearly a thousand images on a single A100 80GB GPU, showing promising application prospects for a wide range of tasks.

arxiv情報

著者 Xidong Wang,Dingjie Song,Shunian Chen,Chen Zhang,Benyou Wang
発行日 2024-09-04 17:25:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM パーマリンク