Matryoshka Multimodal Models

要約

LLaVA などの大規模マルチモーダル モデル (LMM) は、視覚言語推論において優れたパフォーマンスを示しています。
これらのモデルは、まず固定された多数のビジュアル トークンに画像を埋め込み、次にそれらを大規模言語モデル (LLM) にフィードします。
ただし、この設計では、高解像度の画像やビデオなどの緻密な視覚シナリオでは過剰な数のトークンが発生し、大幅な非効率につながります。
トークン プルーニング/マージ方法は存在しますが、それらは画像ごとに単一の長さの出力を生成し、情報密度と情報密度をトレードオフする柔軟性がありません。
効率。
マトリョーシカ人形の概念に触発されて、私たちは M3: マトリョーシカ マルチモーダル モデルを提案します。これは、複数の粗い粒度から細かい粒度にわたる情報をキャプチャする入れ子になったビジュアル トークンのセットとしてビジュアル コンテンツを表現することを学習します。
私たちのアプローチは、LMM にいくつかのユニークな利点を提供します。 (1) 推論中にテスト インスタンスごとに視覚的な粒度を明示的に制御できます。
コンテンツの予想される複雑さまたは単純さに基づいて、画像を表すために使用されるトークンの数を調整します。
(2) M3 は、既存のデータセットに必要な粒度を分析するためのフレームワークを提供します。COCO スタイルのベンチマークでは、576 個のトークンすべてを使用した場合と同様の精度を得るために、約 9 個のビジュアル トークンのみが必要であることがわかりました。
(3) 私たちのアプローチは、サンプルレベルでのパフォーマンスとビジュアルトークンの長さの間の最適なトレードオフを調査するための基盤を提供します。調査の結果、オラクルの上限と現在の固定スケール表現の間に大きなギャップが存在することが明らかになりました。

要約(オリジナル)

Large Multimodal Models (LMMs) such as LLaVA have shown strong performance in visual-linguistic reasoning. These models first embed images into a fixed large number of visual tokens and then feed them into a Large Language Model (LLM). However, this design causes an excessive number of tokens for dense visual scenarios such as high-resolution images and videos, leading to great inefficiency. While token pruning/merging methods do exist, they produce a single length output for each image and do not afford flexibility in trading off information density v.s. efficiency. Inspired by the concept of Matryoshka Dolls, we propose M3: Matryoshka Multimodal Models, which learns to represent visual content as nested sets of visual tokens that capture information across multiple coarse-to-fine granularities. Our approach offers several unique benefits for LMMs: (1) One can explicitly control the visual granularity per test instance during inference, e.g. , adjusting the number of tokens used to represent an image based on the anticipated complexity or simplicity of the content; (2) M3 provides a framework for analyzing the granularity needed for existing datasets, where we find that COCO-style benchmarks only need around ~9 visual tokens to obtain accuracy similar to that of using all 576 tokens; (3) Our approach provides a foundation to explore the best trade-off between performance and visual token length at sample level, where our investigation reveals that a large gap exists between the oracle upper bound and current fixed-scale representations.

arxiv情報

著者 Mu Cai,Jianwei Yang,Jianfeng Gao,Yong Jae Lee
発行日 2024-07-29 17:59:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク