mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding

要約

構造情報は、文書、表、グラフなどのテキストの多い画像のセマンティクスを理解するために重要です。
視覚的な文書理解のための既存のマルチモーダル大規模言語モデル (MLLM) には、テキスト認識機能が備わっていますが、テキストの多い文書画像に対する一般的な構造を理解する機能がありません。
この研究では、Visual Document Understanding における構造情報の重要性を強調し、MLLM のパフォーマンスを向上させるための統合構造学習を提案します。
当社の統合構造学習は、ドキュメント、Web ページ、表、グラフ、自然画像の 5 つのドメインにわたる構造認識解析タスクとマルチグレイン テキスト ローカリゼーション タスクで構成されます。
構造情報をより適切にエンコードするために、シンプルで効果的なビジョンからテキストへのモジュール H-Reducer を設計します。これは、レイアウト情報を維持するだけでなく、畳み込みによって水平方向に隣接するパッチをマージすることで視覚特徴の長さを短縮でき、LLM が次のことを可能にします。
高解像度の画像をより効率的に理解できます。
さらに、構造を認識したテキスト シーケンスと、公開されているテキストの多い画像のテキストと境界ボックスのマルチグレイン ペアを構築することで、構造学習をサポートする包括的なトレーニング セット DocStruct4M を構築します。
最後に、ドキュメント ドメインでの詳細な説明機能をトリガーするために、小さいながらも高品質の推論調整データセット DocReason25K を構築します。
当社のモデル DocOwl 1.5 は、10 のビジュアル文書理解ベンチマークで最先端のパフォーマンスを達成し、7B LLM を備えた MLLM の SOTA パフォーマンスを 5/10 ベンチマークで 10 ポイント以上改善しました。
私たちのコード、モデル、データセットは、https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5 で公開されています。

要約(オリジナル)

Structure information is critical for understanding the semantics of text-rich images, such as documents, tables, and charts. Existing Multimodal Large Language Models (MLLMs) for Visual Document Understanding are equipped with text recognition ability but lack general structure understanding abilities for text-rich document images. In this work, we emphasize the importance of structure information in Visual Document Understanding and propose the Unified Structure Learning to boost the performance of MLLMs. Our Unified Structure Learning comprises structure-aware parsing tasks and multi-grained text localization tasks across 5 domains: document, webpage, table, chart, and natural image. To better encode structure information, we design a simple and effective vision-to-text module H-Reducer, which can not only maintain the layout information but also reduce the length of visual features by merging horizontal adjacent patches through convolution, enabling the LLM to understand high-resolution images more efficiently. Furthermore, by constructing structure-aware text sequences and multi-grained pairs of texts and bounding boxes for publicly available text-rich images, we build a comprehensive training set DocStruct4M to support structure learning. Finally, we construct a small but high-quality reasoning tuning dataset DocReason25K to trigger the detailed explanation ability in the document domain. Our model DocOwl 1.5 achieves state-of-the-art performance on 10 visual document understanding benchmarks, improving the SOTA performance of MLLMs with a 7B LLM by more than 10 points in 5/10 benchmarks. Our codes, models, and datasets are publicly available at https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5.

arxiv情報

著者 Anwen Hu,Haiyang Xu,Jiabo Ye,Ming Yan,Liang Zhang,Bo Zhang,Chen Li,Ji Zhang,Qin Jin,Fei Huang,Jingren Zhou
発行日 2024-03-19 16:48:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク