要約
マルチモーダル大規模言語モデル (MLLM) では、ビジュアル エンコーディングにビジョン トランスフォーマー (ViT) が広く採用されています。
ただし、普遍的な MLLM タスクを解決するパフォーマンスは満足できるものではありません。
これは、さまざまな視覚レベルからの情報が欠如しており、言語生成に必要なさまざまな意味の粒度への調整が妨げられていることが原因であると考えられます。
この問題に対処するために、高解像度の機能ピラミッドを構築および統合することで、多様な視覚的粒度のキャプチャを可能にする階層ウィンドウ トランスフォーマーを中心とした高度な MLLM である LLaVA-UHD v2 を紹介します。
ビジョン言語プロジェクターとして、Hiwin トランスフォーマーは 2 つの主要なモジュールで構成されます: (i) 画像ピラミッドからの高周波詳細を利用した ViT 由来の特徴アップサンプリング プロセスによって構築された逆特徴ピラミッド、および (ii) 階層ウィンドウ アテンション
、クロススケール ウィンドウ内の一連の主要なサンプリング特徴に焦点を当てて、マルチレベルの特徴マップを凝縮します。
広範な実験により、LLaVA-UHD v2 が一般的なベンチマークで既存の MLLM よりも優れたパフォーマンスを達成することが実証されました。
特に、私たちの設計は、ベースライン手法と比較して、14 のベンチマーク全体で平均 3.7% の向上をもたらします (たとえば、DocVQA では 9.3%)。
今後の研究を容易にするために、すべてのデータ、モデル チェックポイント、コードを公開します。
要約(オリジナル)
In multimodal large language models (MLLMs), vision transformers (ViTs) are widely employed for visual encoding. However, their performance in solving universal MLLM tasks is not satisfactory. We attribute it to a lack of information from diverse visual levels, impeding alignment with the various semantic granularity required for language generation. To address this issue, we present LLaVA-UHD v2, an advanced MLLM centered around a Hierarchical window transformer that enables capturing diverse visual granularity by constructing and integrating a high-resolution feature pyramid. As a vision-language projector, Hiwin transformer comprises two primary modules: (i) an inverse feature pyramid, constructed by a ViT-derived feature up-sampling process utilizing high-frequency details from an image pyramid, and (ii) hierarchical window attention, focusing on a set of key sampling features within cross-scale windows to condense multi-level feature maps. Extensive experiments demonstrate that LLaVA-UHD v2 achieves superior performance over existing MLLMs on popular benchmarks. Notably, our design brings an average boost of 3.7% across 14 benchmarks compared with the baseline method, 9.3% on DocVQA for instance. We make all the data, model checkpoint, and code publicly available to facilitate future research.
arxiv情報
著者 | Yipeng Zhang,Yifan Liu,Zonghao Guo,Yidan Zhang,Xuesong Yang,Chi Chen,Jun Song,Bo Zheng,Yuan Yao,Zhiyuan Liu,Tat-Seng Chua,Maosong Sun |
発行日 | 2024-12-18 14:07:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google