Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding

要約

高解像度の文書画像を複数のサブ画像にトリミングすることは、文書を理解するために現在のマルチモーダル大規模言語モデル (MLLM) で最も広く使用されているアプローチです。
現在の文書理解方法のほとんどは、サブイメージ内のすべてのトークンを保存し、それらを同等に扱います。
これにより、それぞれの情報の違いが無視され、画像トークンの数が大幅に増加します。
より適応的で効率的な文書理解を実行するために、トークン処理を最適化するパラメーター不要のプラグアンドプレイ手法であるトークンレベルの相関ガイド付き圧縮を提案します。
まず、各パッチ トークン間の相関に基づいてパターンの反復性を評価するための革新的なアプローチを提案します。
この方法は冗長トークンを識別し、サブイメージの情報密度の決定を可能にします。
次に、[CLS] トークンとパッチ トークンの相関関係を詳しく調べることで、最も有益なトークンを効率的に取得するトークン レベルのサンプリング方法を紹介します。
これらの戦略を統合することで、クロッピング技術を利用して MLLM にシームレスに組み込むことができるプラグ アンド プレイの適応型コンプレッサー モジュールを開発します。
このモジュールは、トレーニングおよび推論時の処理速度を向上させるだけでなく、同等のパフォーマンスを維持します。
SOTA 文書理解モデル mPLUG-DocOwl1.5 を使用して実験を行い、他の圧縮方式との広範な比較を通じてその有効性を実証しています。

要約(オリジナル)

Cropping high-resolution document images into multiple sub-images is the most widely used approach for current Multimodal Large Language Models (MLLMs) to do document understanding. Most of current document understanding methods preserve all tokens within sub-images and treat them equally. This neglects their different informativeness and leads to a significant increase in the number of image tokens. To perform a more adaptive and efficient document understanding, we propose Token-level Correlation-guided Compression, a parameter-free and plug-and-play methodology to optimize token processing. Firstly, we propose an innovative approach for assessing the pattern repetitiveness based on the correlation between each patch tokens. This method identifies redundant tokens, allowing for the determination of the sub-image’s information density. Secondly, we present a token-level sampling method that efficiently captures the most informative tokens by delving into the correlation between the [CLS] token and patch tokens. By integrating these strategies, we develop a plug-and-play adaptive compressor module that can be seamlessly incorporated into MLLMs utilizing cropping techniques. This module not only enhances the processing speed during training and inference but also maintains comparable performance. We conduct experiments with the SOTA document understanding model mPLUG-DocOwl1.5 and the effectiveness is demonstrated through extensive comparisons with other compression methods.

arxiv情報

著者 Renshan Zhang,Yibo Lyu,Rui Shao,Gongwei Chen,Weili Guan,Liqiang Nie
発行日 2024-07-19 16:11:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク