要約
重いマルチモーダル大規模言語モデル (MLLM) の推論を高速化するために、この研究では、トレーニング不要のトークン削減研究の現在の状況を再考します。
既存の手法の重要な要素が密接に絡み合っており、それらの相互関係や効果が比較、移転、拡張するには不明確なままであることを残念に思います。
したがって、私たちは、トークン削減をパイプライン内の 3 つの異なる段階に分解し、一貫した設計目標と要素を維持しながら、独自の実装を可能にする、統一された「フィルター-相関-圧縮」パラダイムを提案します。
さらに、人気のある作品を解明し、パラダイムに組み込んでその普遍性を示します。
最後に、推論のさまざまなフェーズを通じて速度と精度のバランスをとる、パラダイムに基づいた一連のメソッドを提供します。
10 のベンチマークにわたる実験結果は、私たちのメソッドがパフォーマンスへの影響を最小限に抑えながら FLOP を最大 82.4% 削減でき、同時に最先端のトレーニング不要のメソッドを上回っていることを示しています。
私たちのプロジェクト ページは https://ficoco-accelerate.github.io/ にあります。
要約(オリジナル)
To accelerate the inference of heavy Multimodal Large Language Models (MLLMs), this study rethinks the current landscape of training-free token reduction research. We regret to find that the critical components of existing methods are tightly intertwined, with their interconnections and effects remaining unclear for comparison, transfer, and expansion. Therefore, we propose a unified ”filter-correlate-compress” paradigm that decomposes the token reduction into three distinct stages within a pipeline, maintaining consistent design objectives and elements while allowing for unique implementations. We additionally demystify the popular works and subsume them into our paradigm to showcase its universality. Finally, we offer a suite of methods grounded in the paradigm, striking a balance between speed and accuracy throughout different phases of the inference. Experimental results across 10 benchmarks indicate that our methods can achieve up to an 82.4% reduction in FLOPs with a minimal impact on performance, simultaneously surpassing state-of-the-art training-free methods. Our project page is at https://ficoco-accelerate.github.io/.
arxiv情報
著者 | Yuhang Han,Xuyang Liu,Pengxiang Ding,Donglin Wang,Honggang Chen,Qingsen Yan,Siteng Huang |
発行日 | 2024-11-26 18:53:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google