LayoutLLM: Large Language Model Instruction Tuning for Visually Rich Document Understanding

要約

この論文では、画像化されたドキュメントを理解するためのより柔軟なドキュメント分析手法である LayoutLLM を提案します。
文書画像の分類や情報抽出など、視覚的に豊かな文書理解タスクは、その重要性から大きな注目を集めています。
既存の方法は、画像、テキスト、レイアウト構造に対するトレーニング前の認識を組み込むことによって文書の理解を強化するために開発されてきました。
ただし、これらの方法ではタスクやデータセットごとに微調整が必​​要であり、モデルのトレーニングと運用にコストがかかります。
この制限を克服するために、これらを大規模言語モデル (LLM) と統合する新しい LayoutLLM を提案します。
文書画像の理解における既存の研究の強みとLLMの優れた言語理解能力を活用することにより、提案されたモデルはマルチモーダル命令データセットで微調整され、単一モデルで文書画像の理解を実行します。
私たちの実験では、さまざまなドキュメント分析タスクにおいてベースライン モデルよりも改善が見られることが実証されました。

要約(オリジナル)

This paper proposes LayoutLLM, a more flexible document analysis method for understanding imaged documents. Visually Rich Document Understanding tasks, such as document image classification and information extraction, have gained significant attention due to their importance. Existing methods have been developed to enhance document comprehension by incorporating pre-training awareness of images, text, and layout structure. However, these methods require fine-tuning for each task and dataset, and the models are expensive to train and operate. To overcome this limitation, we propose a new LayoutLLM that integrates these with large-scale language models (LLMs). By leveraging the strengths of existing research in document image understanding and LLMs’ superior language understanding capabilities, the proposed model, fine-tuned with multimodal instruction datasets, performs an understanding of document images in a single model. Our experiments demonstrate improvement over the baseline model in various document analysis tasks.

arxiv情報

著者 Masato Fujitake
発行日 2024-03-21 09:25:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク