Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models

要約

高解像度ではっきりと見ることは、視覚認識と推論に不可欠であることが証明されている大規模マルチモーダル モデル (LMM) の基礎です。
既存の作品は通常、単純な解像度アップスケーリング手法を採用しており、画像はグローバル ブランチとローカル ブランチで構成され、後者はスライスされた画像パッチですが、前者と同じ解像度にサイズ変更されます。
これは、解像度が高くなるとより多くのローカル パッチが必要となり、計算コストが膨大になる一方、ローカル画像トークンの優位性によりグローバル コンテキストが低下する可能性があることを意味します。
このペーパーでは、問題を深く掘り下げ、新しいフレームワークと精緻な最適化戦略を提案します。
具体的には、異なるアダプターが異なるタスクで優れているという観察に基づいて、アダプターの混合を使用してグローバルなビューからコンテキスト情報を抽出します。
ローカル パッチに関しては、画像トークンを減らすために学習可能なクエリ埋め込みが導入され、ユーザーの質問を説明する最も重要なトークンが類似性に基づくセレクターによってさらに選択されます。
私たちの経験的な結果は、\textit{少ないがより多くの情報を提供するローカル イメージ トークンを使用することでパフォーマンスの向上につながる、「少ないほど良い」パターンを示しています。
さらに、グローバル マイニング ブロックとローカル圧縮ブロックのエンドツーエンドの同時トレーニングでは最適な結果が得られないため、トレーニング戦略に大きな課題があります。
したがって、私たちは交互のトレーニング方法を提唱し、グローバルな側面とローカルな側面の間でバランスのとれた学習を保証します。
最後に、画像の詳細に対する高い要件を伴う困難なデータセットも導入し、ローカル圧縮層のトレーニングを強化します。
提案された手法は、高度なタスク、ローカル画像圧縮、グローバル エキスパートの混合 (SliME) を備えた LMM と呼ばれ、わずか 200 万のトレーニング データでさまざまなベンチマーク全体で最高のパフォーマンスを達成します。

要約(オリジナル)

Seeing clearly with high resolution is a foundation of Large Multimodal Models (LMMs), which has been proven to be vital for visual perception and reasoning. Existing works usually employ a straightforward resolution upscaling method, where the image consists of global and local branches, with the latter being the sliced image patches but resized to the same resolution as the former. This means that higher resolution requires more local patches, resulting in exorbitant computational expenses, and meanwhile, the dominance of local image tokens may diminish the global context. In this paper, we dive into the problems and propose a new framework as well as an elaborate optimization strategy. Specifically, we extract contextual information from the global view using a mixture of adapters, based on the observation that different adapters excel at different tasks. With regard to local patches, learnable query embeddings are introduced to reduce image tokens, the most important tokens accounting for the user question will be further selected by a similarity-based selector. Our empirical results demonstrate a `less is more’ pattern, where \textit{utilizing fewer but more informative local image tokens leads to improved performance}. Besides, a significant challenge lies in the training strategy, as simultaneous end-to-end training of the global mining block and local compression block does not yield optimal results. We thus advocate for an alternating training way, ensuring balanced learning between global and local aspects. Finally, we also introduce a challenging dataset with high requirements for image detail, enhancing the training of the local compression layer. The proposed method, termed LMM with Sophisticated Tasks, Local image compression, and Mixture of global Experts (SliME), achieves leading performance across various benchmarks with only 2 million training data.

arxiv情報

著者 Yi-Fan Zhang,Qingsong Wen,Chaoyou Fu,Xue Wang,Zhang Zhang,Liang Wang,Rong Jin
発行日 2024-06-13 02:21:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク