LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images

要約

ビジュアル エンコーディングは、ビジュアル世界を理解する際の大規模マルチモーダル モデル (LMM) の基礎を構成します。
従来の LMM は固定サイズと限られた解像度で画像を処理しますが、この方向での最近の探査は適応性、効率性、さらには正確性においても限界があります。
この研究では、まず GPT-4V と LLaVA-1.5 を代表的な例として取り上げ、それらのビジュアル エンコーディング戦略に根ざした体系的な欠陥を明らかにします。
この課題に対処するために、当社は、あらゆるアスペクト比および高解像度の画像を効率的に認識できる大型マルチモーダル モデルである LLaVA-UHD を紹介します。
LLaVA-UHD には 3 つの重要なコンポーネントが含まれています: (1) ネイティブ解像度の画像をより小さな可変サイズのスライスに分割して効率的かつ拡張可能なエンコードを実現する画像モジュール化戦略、(2) ビジュアル エンコーダからの画像トークンをさらに圧縮する圧縮モジュール、および (
3) LLM のスライス トークンを編成するための空間スキーマ。
包括的な実験により、LLaVA-UHD は 9 つのベンチマークで 2 ~ 3 桁多いデータでトレーニングされた確立された LMM よりも優れたパフォーマンスを発揮することが示されています。
特に、LLaVA-1.5 336×336 で構築されたモデルは、94% の推論計算のみを使用して 6 倍大きい (つまり、672×1088) 解像度の画像をサポートし、TextVQA で 6.4 の精度向上を達成しています。
さらに、モデルは学術環境で 8 つの A100 GPU で 23 時間以内 (LLaVA-1.5 の場合は 26 時間) で効率的にトレーニングできます。
データとコードは https://github.com/thunlp/LLaVA-UHD で公開しています。

要約(オリジナル)

Visual encoding constitutes the basis of large multimodal models (LMMs) in understanding the visual world. Conventional LMMs process images in fixed sizes and limited resolutions, while recent explorations in this direction are limited in adaptivity, efficiency, and even correctness. In this work, we first take GPT-4V and LLaVA-1.5 as representative examples and expose systematic flaws rooted in their visual encoding strategy. To address the challenges, we present LLaVA-UHD, a large multimodal model that can efficiently perceive images in any aspect ratio and high resolution. LLaVA-UHD includes three key components: (1) An image modularization strategy that divides native-resolution images into smaller variable-sized slices for efficient and extensible encoding, (2) a compression module that further condenses image tokens from visual encoders, and (3) a spatial schema to organize slice tokens for LLMs. Comprehensive experiments show that LLaVA-UHD outperforms established LMMs trained with 2-3 orders of magnitude more data on 9 benchmarks. Notably, our model built on LLaVA-1.5 336×336 supports 6 times larger (i.e., 672×1088) resolution images using only 94% inference computation, and achieves 6.4 accuracy improvement on TextVQA. Moreover, the model can be efficiently trained in academic settings, within 23 hours on 8 A100 GPUs (vs. 26 hours of LLaVA-1.5). We make the data and code publicly available at https://github.com/thunlp/LLaVA-UHD.

arxiv情報

著者 Ruyi Xu,Yuan Yao,Zonghao Guo,Junbo Cui,Zanlin Ni,Chunjiang Ge,Tat-Seng Chua,Zhiyuan Liu,Maosong Sun,Gao Huang
発行日 2024-03-18 12:04:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク