MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for Accelerating Vision-Language Transformer

要約

Vision-Language Transformers (VLT) は最近大きな成功を収めていますが、一方では膨大な計算コストが伴います。その主な理由は、多数のビジュアル トークンと言語トークンにあると考えられます。
VLT を圧縮するための既存のトークン プルーニング研究は、主に単一モダリティ ベースのスキームに従っていますが、トークン プルーニング プロセスをガイドするために異なるモダリティを調整するという重要な役割を無視しているため、あるモダリティの重要なトークンが別のモダリティ ブランチで誤ってプルーニングされてしまいます。
一方、既存の VLT プルーニング作業には、さまざまな入力サンプルに基づいて各レイヤーを動的に圧縮する柔軟性も欠けています。
この目的を達成するために、さまざまな VLT を高速化するための Multimodal Alignment-Guided Dynamic Token Pruning (MADTP) という新しいフレームワークを提案します。
具体的には、最初に、プルーニングされたトークンがすべてのモダリティにとって重要でなくなるように、異なるモダリティから同じセマンティック概念の機能を調整できる、適切に設計されたマルチモダリティ アライメント ガイダンス (MAG) モジュールを導入します。
さらに、さまざまな入力インスタンスに基づいて各レイヤーのトークン圧縮率を適応的に調整できる、新しい動的トークン プルーニング (DTP) モジュールを設計します。
さまざまなベンチマークに関する広範な実験により、MADTP が競争力のあるパフォーマンスを維持しながら、さまざまなマルチモーダル モデルの計算の複雑さを大幅に軽減することが実証されました。
特に、NLVR2 データセットの BLIP モデルに適用すると、MADTP は 4% 未満のパフォーマンス低下で GFLOP を 80% 削減できます。

要約(オリジナル)

Vision-Language Transformers (VLTs) have shown great success recently, but are meanwhile accompanied by heavy computation costs, where a major reason can be attributed to the large number of visual and language tokens. Existing token pruning research for compressing VLTs mainly follows a single-modality-based scheme yet ignores the critical role of aligning different modalities for guiding the token pruning process, causing the important tokens for one modality to be falsely pruned in another modality branch. Meanwhile, existing VLT pruning works also lack the flexibility to dynamically compress each layer based on different input samples. To this end, we propose a novel framework named Multimodal Alignment-Guided Dynamic Token Pruning (MADTP) for accelerating various VLTs. Specifically, we first introduce a well-designed Multi-modality Alignment Guidance (MAG) module that can align features of the same semantic concept from different modalities, to ensure the pruned tokens are less important for all modalities. We further design a novel Dynamic Token Pruning (DTP) module, which can adaptively adjust the token compression ratio in each layer based on different input instances. Extensive experiments on various benchmarks demonstrate that MADTP significantly reduces the computational complexity of kinds of multimodal models while preserving competitive performance. Notably, when applied to the BLIP model in the NLVR2 dataset, MADTP can reduce the GFLOPs by 80% with less than 4% performance degradation.

arxiv情報

著者 Jianjian Cao,Peng Ye,Shengze Li,Chong Yu,Yansong Tang,Jiwen Lu,Tao Chen
発行日 2024-03-05 14:13:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク