要約
ビジョン言語モデル (VLM) の出現により、画像の理解がクローズドセットの分類から動的な画像と言語の相互作用に変わり、オープンな語彙のセグメンテーションが可能になりました。
この柔軟性にもかかわらず、VLM は曖昧な画像キャプションへの依存とドメイン固有の知識の欠如により、精度の点で閉集合分類器に劣ることがよくあります。
したがって、我々は、オープン語彙セグメンテーションのための新しいタスク ドメイン適応を導入し、オープン語彙の性質を維持しながら、ドメイン固有の事前確率で VLM を強化します。
既存の適応方法をセグメンテーション タスクに適用すると、トレーニング クエリのパフォーマンスは向上しますが、ゼロショット テキスト入力では VLM のパフォーマンスが低下する可能性があります。
この欠点に対処するために、パラメータ効率の高いプロンプト調整と三重項損失ベースのトレーニング戦略を組み合わせたアプローチを提案します。
この戦略は、視覚領域に適応しながら、オープンな語彙の一般化を強化するように設計されています。
私たちの結果は、屋内および屋外のデータセットにわたるオープン語彙セグメント分類タスクにおいて、他のパラメーター効率の高い適応戦略よりも優れています。
特に、私たちのアプローチは、ゼロショット クエリにおいて元の VLM を常に上回る唯一のアプローチです。
当社の適応された VLM は、既存のオープン語彙セグメンテーション パイプラインにプラグ アンド プレイで統合でき、メソッドを変更することなく、ADE20K で OV-Seg を +6.0% mIoU、ScanNet++ Office で +4.1% AP で OpenMask3D を向上させます。
要約(オリジナル)
The advent of Vision Language Models (VLMs) transformed image understanding from closed-set classifications to dynamic image-language interactions, enabling open-vocabulary segmentation. Despite this flexibility, VLMs often fall behind closed-set classifiers in accuracy due to their reliance on ambiguous image captions and lack of domain-specific knowledge. We, therefore, introduce a new task domain adaptation for open-vocabulary segmentation, enhancing VLMs with domain-specific priors while preserving their open-vocabulary nature. Existing adaptation methods, when applied to segmentation tasks, improve performance on training queries but can reduce VLM performance on zero-shot text inputs. To address this shortcoming, we propose an approach that combines parameter-efficient prompt tuning with a triplet-loss-based training strategy. This strategy is designed to enhance open-vocabulary generalization while adapting to the visual domain. Our results outperform other parameter-efficient adaptation strategies in open-vocabulary segment classification tasks across indoor and outdoor datasets. Notably, our approach is the only one that consistently surpasses the original VLM on zero-shot queries. Our adapted VLMs can be plug-and-play integrated into existing open-vocabulary segmentation pipelines, improving OV-Seg by +6.0% mIoU on ADE20K, and OpenMask3D by +4.1% AP on ScanNet++ Offices without any changes to the methods.
arxiv情報
著者 | Gonca Yilmaz,Songyou Peng,Francis Engelmann,Marc Pollefeys,Hermann Blum |
発行日 | 2024-05-30 15:16:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google