要約
この研究では、最大 2,560$\times$2,560 の解像度で画像を解析できる、多用途の OCR 不要の文書理解のための新しい大規模マルチモーダル モデル (LMM) である DocPedia を紹介します。
高解像度のドキュメントに苦労したり、視覚や言語能力が制限されるために大規模な言語モデルを諦めたりする既存の作品とは異なり、DocPedia はピクセル空間ではなく周波数領域で視覚入力を直接処理します。
この独自の特性により、DocPedia は限られた数の視覚トークンを使用して、より大量の視覚情報とテキスト情報をキャプチャできます。
モデルの認識能力と理解能力の両方を一貫して強化するために、2 段階のトレーニング戦略を開発し、複数の種類のドキュメントをカバーするすべてのトレーニング タスクの指示/注釈を強化します。
公開されているさまざまなベンチマークに対して行われた広範な定量的および定性的な実験により、知覚タスクと理解タスクを共同学習することの相互利点が確認されています。
この結果は、他の方法よりも DocPedia の有効性と優れたパフォーマンスのさらなる証拠を提供します。
要約(オリジナル)
This work presents DocPedia, a novel large multimodal model (LMM) for versatile OCR-free document understanding, capable of parsing images up to 2,560$\times$2,560 resolution. Unlike existing work either struggle with high-resolution documents or give up the large language model thus vision or language ability constrained, our DocPedia directly processes visual input in the frequency domain rather than the pixel space. The unique characteristic enables DocPedia to capture a greater amount of visual and textual information using a limited number of visual tokens. To consistently enhance both perception and comprehension abilities of our model, we develop a dual-stage training strategy and enrich instructions/annotations of all training tasks covering multiple document types. Extensive quantitative and qualitative experiments conducted on various publicly available benchmarks confirm the mutual benefits of jointly learning perception and comprehension tasks. The results provide further evidence of the effectiveness and superior performance of our DocPedia over other methods.
arxiv情報
著者 | Hao Feng,Qi Liu,Hao Liu,Jingqun Tang,Wengang Zhou,Houqiang Li,Can Huang |
発行日 | 2024-11-25 18:17:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google