DocKylin: A Large Multimodal Model for Visual Document Understanding with Efficient Visual Slimming

要約

現在のマルチモーダル大規模言語モデル(MLLM)は、文書画像に典型的な高解像度、高密度テキスト、複雑なレイアウトのために、VDU(VDU)タスクにおいて大きな課題に直面している。これらの特徴は、MLLMに高いレベルの詳細知覚能力を要求する。入力の解像度を上げることは、詳細知覚能力を向上させる一方で、視覚的トークンのシーケンスが長くなり、計算コストが増加し、長いコンテキストを処理するモデルの能力に負担をかける。このような課題に対処するため、我々はドキュメント中心のMLLMであるDocKylinを導入する。DocKylinはピクセルとトークンの両方のレベルで視覚的内容のスリミングを行い、VDUのシナリオにおけるトークン列の長さを短縮する。画素レベルのスリミングを行う適応的画素スリミング(APS)前処理モジュールを導入し、情報量の多い画素の割合を増やす。さらに、トークンレベルのスリミングを行う新しい動的トークンスリミング(DTS)モジュールを提案し、よりコンパクトな視覚シーケンスを適応的に作成するために、必要なトークンをフィルタリングし、その他のトークンを削除する。実験により、様々なVDUベンチマークにおけるDocKylinの有望な性能と各コンポーネントの有効性を実証する。

要約(オリジナル)

Current multimodal large language models (MLLMs) face significant challenges in visual document understanding (VDU) tasks due to the high resolution, dense text, and complex layouts typical of document images. These characteristics demand a high level of detail perception ability from MLLMs. While increasing input resolution improves detail perception capability, it also leads to longer sequences of visual tokens, increasing computational costs and straining the models’ ability to handle long contexts. To address these challenges, we introduce DocKylin, a document-centric MLLM that performs visual content slimming at both the pixel and token levels, thereby reducing token sequence length in VDU scenarios. We introduce an Adaptive Pixel Slimming (APS) preprocessing module to perform pixel-level slimming, increasing the proportion of informative pixels. Moreover, we propose a novel Dynamic Token Slimming (DTS) module to conduct token-level slimming, filtering essential tokens and removing others to adaptively create a more compact visual sequence. Experiments demonstrate DocKylin’s promising performance across various VDU benchmarks and the effectiveness of each component.

arxiv情報

著者 Jiaxin Zhang,Wentao Yang,Songxuan Lai,Zecheng Xie,Lianwen Jin
発行日 2024-09-03 03:51:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク