要約
接地会話生成(GCG)は、モデルが対応するオブジェクトセグメンテーションマスクとシームレスに絡み合って自然言語応答を生成する必要がある新しいビジョン言語タスクです。
GLAMMやOMG-llavaなどの最近のモデルは、ピクセルレベルの接地を達成しますが、多数の視覚トークンを処理するためにかなりの計算コストが発生します。
FastVやPyramiddropなどの既存のトークン剪定方法は、正確な接地に重要なローカル視覚機能を保存できず、GCGタスクのパフォーマンスが大幅に低下しました。
これに対処するために、ローカルオブジェクト情報に優先順位を付けることでGCGモデルを加速するシンプルで効果的なフレームワークである、適応型ローカルアウェアトークンプルーニング(ALTP)を提案します。
ALTPは、2つの重要なコンポーネントを導入します。(1)詳細密度キャプチャ(DDC)。これは、スーパーピクセルセグメンテーションを使用してオブジェクト中心の領域にトークンを保持し、細粒の詳細を維持し、(2)動的密度形成(DDF)を保持します。
Grandf Datasetでの広範な実験は、GLAMMモデルとOMG-Lolavaモデルの両方で、ALTPがFastVやPyramidropなどの既存のトークン剪定方法を大幅に上回ることを示しています。
特に、GLAMMに適用すると、ALTPは視覚トークンの90%減少を達成し、AP50が4.9%改善し、ピラミドロップと比較してRecallが5.0%改善されます。
同様に、OMG-llavaでは、ALTPはPDROPと比較して90%のトークン削減でAPを2.1%、MIOUを3.0%改善します。
要約(オリジナル)
Grounded Conversation Generation (GCG) is an emerging vision-language task that requires models to generate natural language responses seamlessly intertwined with corresponding object segmentation masks. Recent models, such as GLaMM and OMG-LLaVA, achieve pixel-level grounding but incur significant computational costs due to processing a large number of visual tokens. Existing token pruning methods, like FastV and PyramidDrop, fail to preserve the local visual features critical for accurate grounding, leading to substantial performance drops in GCG tasks. To address this, we propose Adaptive Local-Aware Token Pruning (ALTP), a simple yet effective framework that accelerates GCG models by prioritizing local object information. ALTP introduces two key components: (1) Detail Density Capture (DDC), which uses superpixel segmentation to retain tokens in object-centric regions, preserving fine-grained details, and (2) Dynamic Density Formation (DDF), which dynamically allocates tokens based on information density, ensuring higher retention in semantically rich areas. Extensive experiments on the GranDf dataset demonstrate that ALTP significantly outperforms existing token pruning methods, such as FastV and PyramidDrop, on both GLaMM and OMG-LLaVA models. Notably, when applied to GLaMM, ALTP achieves a 90% reduction in visual tokens with a 4.9% improvement in AP50 and a 5.0% improvement in Recall compared to PyramidDrop. Similarly, on OMG-LLaVA, ALTP improves AP by 2.1% and mIOU by 3.0% at a 90% token reduction compared with PDrop.
arxiv情報
著者 | Bizhe Bai,Jianjian Cao,Yadan Luo,Tao Chen |
発行日 | 2025-04-01 08:34:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google