Layout and Task Aware Instruction Prompt for Zero-shot Document Image Question Answering

要約

レイアウトを意識した事前トレーニング済みモデルは、文書画像の質問応答において大幅な進歩を遂げました。
これらは、OCR ツールによって取得されたテキスト境界ボックスの座標からドキュメント画像内のレイアウト情報をキャプチャするために、追加の学習可能なモジュールを既存の言語モデルに導入します。
ただし、追加のモジュールを使用するには、広範なドキュメント画像に対する事前トレーニングが必要です。
これにより、これらの方法では、最近ゼロショット学習で有望な可能性が示された既製の命令チューニング言語基礎モデルを直接利用することができなくなります。
その代わりに、この論文では、Claude や ChatGPT のような命令チューニング言語モデルがスペースや改行によるレイアウトを理解できることを発見しました。
この観察に基づいて、レイアウトを意識したドキュメント コンテンツとタスクを意識した命令で構成される、レイアウトとタスクを意識した命令プロンプト (LATIN-Prompt) を提案します。
具体的には、前者は適切なスペースと改行を使用して OCR ツールによって取得されたテキストセグメント間のレイアウト情報を復元し、後者は生成された回答が書式要件に準拠していることを保証します。
さらに、Alpaca のような小規模な命令チューニング モデルのパフォーマンスを向上させるために、LAyout およびタスク認識型命令チューニング (LATIN-Tuning) を提案します。
実験結果は、LATIN-Prompt により、Claude と ChatGPT のゼロショット パフォーマンスが、文書画像の質問応答における SOTA の微調整パフォーマンスと同等になることを可能にし、LATIN-Tuning が Alpaca のゼロショット パフォーマンスを大幅に向上させることを示しています。
たとえば、LATIN-Prompt は、DocVQA 上の Claude と ChatGPT のパフォーマンスをそれぞれ 263% と 20% 向上させます。
LATIN-Tuning により、DocVQA 上の Alpaca のパフォーマンスが 87.7% 向上しました。
定量的分析と定性的分析により、LATIN-Prompt と LATIN-Tuning の有効性が実証されます。
私たちは補足としてコードを提供し、将来の研究を容易にするためにそれをリリースします。

要約(オリジナル)

Layout-aware pre-trained models has achieved significant progress on document image question answering. They introduce extra learnable modules into existing language models to capture layout information within document images from text bounding box coordinates obtained by OCR tools. However, extra modules necessitate pre-training on extensive document images. This prevents these methods from directly utilizing off-the-shelf instruction-tuning language foundation models, which have recently shown promising potential in zero-shot learning. Instead, in this paper, we find that instruction-tuning language models like Claude and ChatGPT can understand layout by spaces and line breaks. Based on this observation, we propose the LAyout and Task aware Instruction Prompt (LATIN-Prompt), which consists of layout-aware document content and task-aware instruction. Specifically, the former uses appropriate spaces and line breaks to recover the layout information among text segments obtained by OCR tools, and the latter ensures that generated answers adhere to formatting requirements. Moreover, we propose the LAyout and Task aware Instruction Tuning (LATIN-Tuning) to improve the performance of small instruction-tuning models like Alpaca. Experimental results show that LATIN-Prompt enables zero-shot performance of Claude and ChatGPT to be comparable to the fine-tuning performance of SOTAs on document image question answering, and LATIN-Tuning enhances the zero-shot performance of Alpaca significantly. For example, LATIN-Prompt improves the performance of Claude and ChatGPT on DocVQA by 263% and 20% respectively. LATIN-Tuning improves the performance of Alpaca on DocVQA by 87.7%. Quantitative and qualitative analyses demonstrate the effectiveness of LATIN-Prompt and LATIN-Tuning. We provide the code in supplementary and will release it to facilitate future research.

arxiv情報

著者 Wenjin Wang,Yunhao Li,Yixin Ou,Yin Zhang
発行日 2023-09-07 08:40:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク