VP Lab: a PEFT-Enabled Visual Prompting Laboratory for Semantic Segmentation

要約

大規模な前処理されたビジョンバックボーンは、セマンティックセグメンテーションの視覚的なプロンプトなどのトレーニングなしのアプローチなど、さまざまな下流タスクを可能にする強力な機能抽出器を提供することにより、コンピュータービジョンを変換しました。
一般的なシナリオでの成功にもかかわらず、これらのモデルは、視覚的特徴がトレーニング分布とは大きく異なる専門的な技術ドメインに適用すると不足していることがよくあります。
このギャップを埋めるために、VP Labを導入します。VPLabは、堅牢なセグメンテーションモデル開発の視覚的なプロンプトを強化する包括的な反復フレームワークです。
VP Labのコアには、パラメーター効率の良い方法で視覚的なプロンプトパイプラインを特定のドメインに適応させるために特別に設計されたパラメーター効率の高い微調整技術の新しいアンサンブルであるE-Peftがあります。
私たちのアプローチは、セグメントのあらゆるモデル(SAM)の最先端のパラメーター効率の高い微調整を上回るだけでなく、インタラクティブでほぼリアルタイムループを促進し、ユーザーがフレームワーク内で実験する際に結果を徐々に改善できるようにします。
e-peftを視覚的なプロンプトと統合することにより、5つの検証済みの画像のみを使用して、さまざまな技術データセットでセマンティックセグメンテーションMIOUパフォーマンスの顕著な50 \%の増加を示し、新しい挑戦的なドメインにおける高速で効率的でインタラクティブなモデルの展開のための新しいパラダイムを確立します。
この作品は、デモンストレーションの形で行われます。

要約(オリジナル)

Large-scale pretrained vision backbones have transformed computer vision by providing powerful feature extractors that enable various downstream tasks, including training-free approaches like visual prompting for semantic segmentation. Despite their success in generic scenarios, these models often fall short when applied to specialized technical domains where the visual features differ significantly from their training distribution. To bridge this gap, we introduce VP Lab, a comprehensive iterative framework that enhances visual prompting for robust segmentation model development. At the core of VP Lab lies E-PEFT, a novel ensemble of parameter-efficient fine-tuning techniques specifically designed to adapt our visual prompting pipeline to specific domains in a manner that is both parameter- and data-efficient. Our approach not only surpasses the state-of-the-art in parameter-efficient fine-tuning for the Segment Anything Model (SAM), but also facilitates an interactive, near-real-time loop, allowing users to observe progressively improving results as they experiment within the framework. By integrating E-PEFT with visual prompting, we demonstrate a remarkable 50\% increase in semantic segmentation mIoU performance across various technical datasets using only 5 validated images, establishing a new paradigm for fast, efficient, and interactive model deployment in new, challenging domains. This work comes in the form of a demonstration.

arxiv情報

著者 Niccolo Avogaro,Thomas Frick,Yagmur G. Cinar,Daniel Caraballo,Cezary Skura,Filip M. Janicki,Piotr Kluska,Brown Ebouky,Nicola Farronato,Florian Scheidegger,Cristiano Malossi,Konrad Schindler,Andrea Bartezzaghi,Roy Assaf,Mattia Rigotti
発行日 2025-05-21 14:46:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク