要約
オープンボキャブラリーのパノプティックセグメンテーションは、一連のテキストに基づいて画像を意味的に意味のあるマスクに正確にセグメント化することを目的とした新たなタスクです。
既存の取り組みにもかかわらず、新しいドメイン全体に効果的に一般化し、必要なトレーニング リソースを最小限に抑える、高性能のメソッドを開発することは依然として困難です。
現在の手法を徹底的に分析したところ、マスク分類がオープンボキャブの主なパフォーマンスのボトルネックであるという重要な洞察が明らかになりました。
パノプティックセグメンテーション。
これに基づいて、オープンボキャブを大幅に強化する新しいフレームワークである Semantic Refocused Tuning (SMART) を提案します。
2 つの主要な革新によってマスク分類を改善することにより、パノプティック セグメンテーションを実現します。
まず、SMART は、地域情報抽出プロセスにタスク認識を注入する、マルチモーダルなセマンティックガイドによるマスク アテンション メカニズムを採用しています。
これにより、モデルはタスク固有の状況に関連した情報を取得して、より効果的なマスク分類を行うことができます。
2 番目に、マスク分類に使用されるビジョン言語モデル (VLM) 内のクエリ投影レイヤーを戦略的に微調整するクエリ投影チューニングが組み込まれています。
この調整により、モデルは、VLM の事前トレーニングされた知識を維持しながら、最小限のトレーニング リソースでマスク トークンのイメージ フォーカスを新しい分布に適応させることができます。
広範なアブレーション研究により、私たちのアプローチの優位性が確認されています。
特に、SMART は新しい最先端の結果をもたらし、代表的なベンチマーク全体で最大 +1.3 PQ および +5.4 mIoU の改善を実証しながら、以前の最良の方法と比較してトレーニング コストをほぼ 10 倍削減しました。
コードとデータは公開されます。
要約(オリジナル)
Open-vocabulary panoptic segmentation is an emerging task aiming to accurately segment the image into semantically meaningful masks based on a set of texts. Despite existing efforts, it remains challenging to develop a high-performing method that generalizes effectively across new domains and requires minimal training resources. Our in-depth analysis of current methods reveals a crucial insight: mask classification is the main performance bottleneck for open-vocab. panoptic segmentation. Based on this, we propose Semantic Refocused Tuning (SMART), a novel framework that greatly enhances open-vocab. panoptic segmentation by improving mask classification through two key innovations. First, SMART adopts a multimodal Semantic-guided Mask Attention mechanism that injects task-awareness into the regional information extraction process. This enables the model to capture task-specific and contextually relevant information for more effective mask classification. Second, it incorporates Query Projection Tuning, which strategically fine-tunes the query projection layers within the Vision Language Model (VLM) used for mask classification. This adjustment allows the model to adapt the image focus of mask tokens to new distributions with minimal training resources, while preserving the VLM’s pre-trained knowledge. Extensive ablation studies confirm the superiority of our approach. Notably, SMART sets new state-of-the-art results, demonstrating improvements of up to +1.3 PQ and +5.4 mIoU across representative benchmarks, while reducing training costs by nearly 10x compared to the previous best method. Our code and data will be released.
arxiv情報
著者 | Yong Xien Chng,Xuchong Qiu,Yizeng Han,Kai Ding,Wan Ding,Gao Huang |
発行日 | 2024-09-24 17:50:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google