要約
テキストが全体的な理解を導く中心的な視覚要素として機能するテキストが豊富な画像は、プレゼンテーションスライド、スキャンドキュメント、Webページのスナップショットなど、実際のアプリケーションで一般的です。
複数のテキストが豊富な画像を含むタスクは、個々の画像の内容を理解するだけでなく、複数の視覚入力にわたる相互関係と論理フローに関する推論が必要であるため、特に困難です。
これらのシナリオの重要性にもかかわらず、現在のマルチモーダル大手言語モデル(MLLMS)は、2つの重要な課題のためにそのようなタスクを処理するのに苦労しています。(1)テキストが豊富なマルチイメージシナリオの高品質の指導チューニングデータセットの希少性、および(2)画像解像度と視覚的特徴シーケンスの長さのバランスをとることの難しさ。
これらの課題に対処するために、複数のテキストが豊富な画像を含むビジョン言語タスクを処理するために調整されたMLLMであるLeopardを提案します。
まず、テキストが豊富なマルチイメージシナリオに合わせて、約100万の高品質のマルチモーダル命令調整データをキュレーションしました。
第二に、元のアスペクト比と画像の解像度に基づいて視覚シーケンス長の割り当てを動的に最適化するために、適応的な高解像度マルチイメージエンコードモジュールを提案しました。
多様な一連のベンチマークでの実験により、私たちのモデルは、テキストが豊富なマルチイメージ評価に挑戦して、Llama-3.2やQWEN2-VLなどの最先端のシステムを常に上回ることが明らかになりました。
驚くべきことに、私たちのアプローチは、わずか1.2mのトレーニングインスタンスを使用して優れたパフォーマンスを実現します。これらはすべて完全にオープンソーシングされており、大規模な社内データでトレーニングされたモデルと比較して高効率と有効性の両方を実証しています。
私たちのコードとデータは、https://github.com/tencent-ailab/leopardで入手できます。
要約(オリジナル)
Text-rich images, where text serves as the central visual element guiding the overall understanding, are prevalent in real-world applications, such as presentation slides, scanned documents, and webpage snapshots. Tasks involving multiple text-rich images are especially challenging, as they require not only understanding the content of individual images but reasoning about inter-relationships and logical flows across multiple visual inputs. Despite the importance of these scenarios, current multimodal large language models (MLLMs) struggle to handle such tasks due to two key challenges: (1) the scarcity of high-quality instruction tuning datasets for text-rich multi-image scenarios, and (2) the difficulty in balancing image resolution with visual feature sequence length. To address these challenges, we propose Leopard, an MLLM tailored for handling vision-language tasks involving multiple text-rich images. First, we curated about one million high-quality multimodal instruction-tuning data, tailored to text-rich, multi-image scenarios. Second, we proposed an adaptive high-resolution multi-image encoding module to dynamically optimize the allocation of visual sequence length based on the original aspect ratios and resolutions of images. Experiments on a diverse set of benchmarks reveal that our model consistently outperforms state-of-the-art systems, such as Llama-3.2 and Qwen2-VL, in challenging text-rich, multi-image evaluations. Remarkably, our approach achieves outstanding performance using only 1.2M training instances, all of which are fully open-sourced, demonstrating both high efficiency and effectiveness compared to models trained on large-scale in-house data. Our code and data are available at https://github.com/tencent-ailab/Leopard.
arxiv情報
著者 | Mengzhao Jia,Wenhao Yu,Kaixin Ma,Tianqing Fang,Zhihan Zhang,Siru Ouyang,Hongming Zhang,Dong Yu,Meng Jiang |
発行日 | 2025-06-06 17:53:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google