mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding

要約

マルチモデル大規模言語モデル (MLLM) は、サポートされているドキュメント画像の解像度を高めることにより、OCR を使用しないドキュメント理解の有望なパフォーマンスを達成しました。
ただし、これには 1 つのドキュメント画像に対して何千ものビジュアル トークンを生成するという代償が伴い、特に複数ページのドキュメントを理解する場合に、過剰な GPU メモリと推論時間の低下につながります。
この研究では、これらの課題に対処するために、低解像度のグローバル視覚機能によって各高解像度ドキュメント画像を 324 トークンに圧縮する高解像度 DocCompressor モジュールを提案します。
この圧縮モジュールにより、複数ページの文書理解能力を強化し、トークン効率と質問応答パフォーマンスのバランスをとるために、単一画像事前トレーニング、複数画像継続事前トレーニング、およびマルチ画像の 3 段階のトレーニング フレームワークに基づいて DocOwl2 を開発します。
-タスクの微調整。
DocOwl2 は、複数ページの文書理解ベンチマーク全体で新しい最先端を設定し、最初のトークンの待ち時間を 50% 以上短縮し、複数ページの質問応答、証拠ページを使用した説明、およびページをまたがる構造の理解における高度な機能を実証します。

さらに、同様のデータでトレーニングされた単一画像 MLLM と比較して、DocOwl2 は 20% 未満のビジュアル トークンで同等の単一ページ理解パフォーマンスを達成します。
私たちのコード、モデル、データは https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2 で公開されています。

要約(オリジナル)

Multimodel Large Language Models(MLLMs) have achieved promising OCR-free Document Understanding performance by increasing the supported resolution of document images. However, this comes at the cost of generating thousands of visual tokens for a single document image, leading to excessive GPU memory and slower inference times, particularly in multi-page document comprehension. In this work, to address these challenges, we propose a High-resolution DocCompressor module to compress each high-resolution document image into 324 tokens, guided by low-resolution global visual features. With this compression module, to strengthen multi-page document comprehension ability and balance both token efficiency and question-answering performance, we develop the DocOwl2 under a three-stage training framework: Single-image Pretraining, Multi-image Continue-pretraining, and Multi-task Finetuning. DocOwl2 sets a new state-of-the-art across multi-page document understanding benchmarks and reduces first token latency by more than 50%, demonstrating advanced capabilities in multi-page questioning answering, explanation with evidence pages, and cross-page structure understanding. Additionally, compared to single-image MLLMs trained on similar data, our DocOwl2 achieves comparable single-page understanding performance with less than 20% of the visual tokens. Our codes, models, and data are publicly available at https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2.

arxiv情報

著者 Anwen Hu,Haiyang Xu,Liang Zhang,Jiabo Ye,Ming Yan,Ji Zhang,Qin Jin,Fei Huang,Jingren Zhou
発行日 2024-09-05 11:09:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク