要約
私たちは、人間が書いた指示を通じて現実世界の文書上で、質問応答や情報抽出などのさまざまな視覚的文書理解 (VDU) タスクを完了する問題を研究します。
この目的を達成するために、私たちは InstructDoc を提案します。これは、公開されている 30 個の VDU データセットの初の大規模コレクションであり、各データセットには統一された形式で多様な命令が含まれており、12 の広範囲のタスクをカバーし、オープンなドキュメント タイプ/形式が含まれています。
さらに、VDU タスクの汎化パフォーマンスを強化するために、トレーニング可能なブリッジング モジュールを通じてドキュメント画像、画像エンコーダー、大規模言語モデル (LLM) を接続する、新しい命令ベースのドキュメント読み取り理解モデル InstructDr を設計しました。
実験では、InstructDr が与えられた命令を通じて新しい VDU データセット、タスク、ドメインに効果的に適応でき、特別なトレーニングなしで既存のマルチモーダル LLM や ChatGPT よりも優れたパフォーマンスを発揮できることが実証されています。
要約(オリジナル)
We study the problem of completing various visual document understanding (VDU) tasks, e.g., question answering and information extraction, on real-world documents through human-written instructions. To this end, we propose InstructDoc, the first large-scale collection of 30 publicly available VDU datasets, each with diverse instructions in a unified format, which covers a wide range of 12 tasks and includes open document types/formats. Furthermore, to enhance the generalization performance on VDU tasks, we design a new instruction-based document reading and understanding model, InstructDr, that connects document images, image encoders, and large language models (LLMs) through a trainable bridging module. Experiments demonstrate that InstructDr can effectively adapt to new VDU datasets, tasks, and domains via given instructions and outperforms existing multimodal LLMs and ChatGPT without specific training.
arxiv情報
著者 | Ryota Tanaka,Taichi Iki,Kyosuke Nishida,Kuniko Saito,Jun Suzuki |
発行日 | 2024-01-24 09:09:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google