Layout and Task Aware Instruction Prompt for Zero-shot Document Image Question Answering

要約

レイアウトを意識したマルチモーダルな事前トレーニング済みモデルに基づく事前トレーニングと微調整のパラダイムは、文書画像の質問応答において大幅な進歩を達成しました。
ただし、追加のビジュアル、レイアウト、およびタスク モジュールに対するドメインの事前トレーニングとタスクの微調整では、最近ゼロショット学習で有望な可能性が示されている既製の命令チューニング言語基礎モデルを直接利用することができません。
言語モデルを文書画像の質問応答の領域に調整するのとは対照的に、文書画像の質問応答をオフザシェルの命令チューニング言語基盤モデルに調整して、そのゼロショット機能を活用します。
具体的には、LATIN-Prompt と呼ばれるレイアウトとタスクを意識した指示プロンプトを提案します。これは、レイアウトを意識した文書コンテンツとタスクを意識した説明で構成されます。
前者は、適切なスペースと改行によって OCR ツールからテキストセグメント間のレイアウト情報を復元します。
後者では、タスクの詳細な説明を通じて、モデルが要件、特に形式要件を満たす回答を生成することが保証されます。
3 つのベンチマークの実験結果は、LATIN-Prompt が文書画像質問応答に関する命令チューニング言語基礎モデルのゼロショット パフォーマンスを向上させ、事前トレーニング – 微調整パラダイムに基づく SOTA と同等のレベルを達成できることを示しています。
定量分析と定性分析により、LATIN-Prompt の有効性が実証されます。
補足としてコードを提供し、将来の研究を容易にするためにコードをリリースする予定です。

要約(オリジナル)

The pre-training-fine-tuning paradigm based on layout-aware multimodal pre-trained models has achieved significant progress on document image question answering. However, domain pre-training and task fine-tuning for additional visual, layout, and task modules prevent them from directly utilizing off-the-shelf instruction-tuning language foundation models, which have recently shown promising potential in zero-shot learning. Contrary to aligning language models to the domain of document image question answering, we align document image question answering to off-the-shell instruction-tuning language foundation models to utilize their zero-shot capability. Specifically, we propose layout and task aware instruction prompt called LATIN-Prompt, which consists of layout-aware document content and task-aware descriptions. The former recovers the layout information among text segments from OCR tools by appropriate spaces and line breaks. The latter ensures that the model generates answers that meet the requirements, especially format requirements, through a detailed description of task. Experimental results on three benchmarks show that LATIN-Prompt can improve the zero-shot performance of instruction-tuning language foundation models on document image question answering and help them achieve comparable levels to SOTAs based on the pre-training-fine-tuning paradigm. Quantitative analysis and qualitative analysis demonstrate the effectiveness of LATIN-Prompt. We provide the code in supplementary and will release the code to facilitate future research.

arxiv情報

著者 Wenjin Wang,Yunhao Li,Yixin Ou,Yin Zhang
発行日 2023-09-06 03:30:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク