要約
視覚変圧器(VITS)およびビジョン言語モデル(VLM)の計算需要は、自己atentionの二次複雑さのために依然として重要な課題です。
Token Pruningは有望なソリューションを提供しますが、既存の方法ではトレーニングのオーバーヘッドを導入するか、レイヤーを越えて動的に適応できないことがよくあります。
トークンの類似性とグラフベースの定式化を活用して、剪定速度と冗長性のしきい値を動的に最適化するグラフベースの定式化を活用するトレーニングフリーのトークンプルーニングフレームワークである聖人を提示します。
体系的な分析を通じて、変圧器の普遍的な3段階トークン進化プロセス(Aligner-Explorer-Aggregator)を特定し、重要な情報を犠牲にすることなく初期段階で積極的な剪定を可能にします。
VITSの場合、Saintは224pxでVIT-H/14のスループットを2倍にし、ImagENET-1Kの精度損失はわずか0.6%で、最も近い競合他社を0.8%上回ります。
VLMSの場合、VITのみ、LLMのみ、ハイブリッドの3つのモードに聖人を適用します。
SaintはLLAVA-13Bのトークンを75%減らし、LLAVA-7Bに匹敵する遅延を達成し、ベンチマーク全体でパフォーマンス損失が1%未満です。
私たちの仕事は、VITとVLMSの効率的な推論のための統一された実用的なフレームワークを確立しています。
要約(オリジナル)
The computational demands of Vision Transformers (ViTs) and Vision-Language Models (VLMs) remain a significant challenge due to the quadratic complexity of self-attention. While token pruning offers a promising solution, existing methods often introduce training overhead or fail to adapt dynamically across layers. We present SAINT, a training-free token pruning framework that leverages token similarity and a graph-based formulation to dynamically optimize pruning rates and redundancy thresholds. Through systematic analysis, we identify a universal three-stage token evolution process (aligner-explorer-aggregator) in transformers, enabling aggressive pruning in early stages without sacrificing critical information. For ViTs, SAINT doubles the throughput of ViT-H/14 at 224px with only 0.6% accuracy loss on ImageNet-1K, surpassing the closest competitor by 0.8%. For VLMs, we apply SAINT in three modes: ViT-only, LLM-only, and hybrid. SAINT reduces LLaVA-13B’s tokens by 75%, achieving latency comparable to LLaVA-7B with less than 1% performance loss across benchmarks. Our work establishes a unified, practical framework for efficient inference in ViTs and VLMs.
arxiv情報
著者 | Ahmadreza Jeddi,Negin Baghbanzadeh,Elham Dolatabadi,Babak Taati |
発行日 | 2025-03-14 16:12:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google