Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks

要約

テキストリッチ画像は、テキストが全体的な理解を導く中心的な視覚要素として機能するものであり、プレゼンテーションのスライド、スキャンした文書、ウェブページのスナップショットなど、実世界のアプリケーションに広く普及している。個々の画像の内容を理解するだけでなく、複数の視覚入力の相互関係や論理的な流れを推論する必要があるため、複数のテキストが豊富な画像を含むタスクは特に困難である。このようなシナリオの重要性にもかかわらず、現在のマルチモーダル大規模言語モデル(MLLM)は、(1)テキストリッチな複数画像シナリオのための高品質な命令チューニングデータセットの不足、(2)画像の解像度と視覚的特徴列の長さのバランスの難しさという2つの重要な課題のために、このようなタスクを処理するのに苦労している。これらの課題を解決するために、我々はLeopardを提案する。Leopardは、複数のテキストが豊富な画像を含む視覚言語タスクを処理するために特別に設計されたMLLMである。まず、テキストリッチな複数画像のシナリオに合わせた、約100万件の高品質なマルチモーダル命令チューニングデータを収集した。次に、入力画像のアスペクト比と解像度に基づき、視覚シーケンスの長さの割り当てを動的に最適化する適応型高解像度マルチ画像エンコーディングモジュールを開発した。広範なベンチマークでの実験により、テキストリッチな多画像評価における我々のモデルの優れた能力と、一般的なドメイン評価における競争力が実証された。

要約(オリジナル)

Text-rich images, where text serves as the central visual element guiding the overall understanding, are prevalent in real-world applications, such as presentation slides, scanned documents, and webpage snapshots. Tasks involving multiple text-rich images are especially challenging, as they require not only understanding the content of individual images but reasoning about inter-relationships and logical flows across multiple visual inputs. Despite the importance of these scenarios, current multimodal large language models (MLLMs) struggle to handle such tasks due to two key challenges: (1) the scarcity of high-quality instruction tuning datasets for text-rich multi-image scenarios, and (2) the difficulty in balancing image resolution with visual feature sequence length. To address these challenges, we propose Leopard, a MLLM designed specifically for handling vision-language tasks involving multiple text-rich images. First, we curated about one million high-quality multimodal instruction-tuning data, tailored to text-rich, multi-image scenarios. Second, we developed an adaptive high-resolution multi-image encoding module to dynamically optimize the allocation of visual sequence length based on the original aspect ratios and resolutions of the input images. Experiments across a wide range of benchmarks demonstrate our model’s superior capabilities in text-rich, multi-image evaluations and competitive performance in general domain evaluations.

arxiv情報

著者 Mengzhao Jia,Wenhao Yu,Kaixin Ma,Tianqing Fang,Zhihan Zhang,Siru Ouyang,Hongming Zhang,Meng Jiang,Dong Yu
発行日 2024-10-03 15:57:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV パーマリンク