Semantic Library Adaptation: LoRA Retrieval and Fusion for Open-Vocabulary Semantic Segmentation

要約

オープンボキャブラリーセマンティックセグメンテーションモデルは、テキストクエリを使用して、未定義のクラスのセットからピクセルをラベル付けし、新しいデータセットで汎用性の高いパフォーマンスを提供するクラスのピクセルをラベル付けするために、ビジョンとテキストを関連付けます。
ただし、トレーニングドメインとテストドメインの間の大きなシフトはパフォーマンスを低下させ、効果的な現実世界アプリケーションに微調整を必要とします。
トレーニングなしのテスト時間ドメイン適応のための新しいフレームワークであるSemantic Library Adaptation(SEMLA)を紹介します。
Semlaは、クリップ埋め込みでインデックス付けされたLORAベースのアダプターのライブラリを活用し、埋め込みスペースのターゲットドメインに近接して最も関連性の高いアダプターを動的にマージします。
このアプローチは、追加のトレーニングなしで、各特定の入力に合わせたアドホックモデルを構築します。
私たちの方法は効率的にスケーリングし、アダプターの貢献を追跡することで説明可能性を向上させ、データプライバシーを本質的に保護し、デリケートなアプリケーションに最適です。
10を超える標準データセットを構築した20ドメインベンチマークでの包括的な実験は、多様な設定にわたってSemlaの優れた適応性とパフォーマンスを示し、オープンホキャブラリーセマンティックセグメンテーションのドメイン適応に新しい標準を確立します。

要約(オリジナル)

Open-vocabulary semantic segmentation models associate vision and text to label pixels from an undefined set of classes using textual queries, providing versatile performance on novel datasets. However, large shifts between training and test domains degrade their performance, requiring fine-tuning for effective real-world applications. We introduce Semantic Library Adaptation (SemLA), a novel framework for training-free, test-time domain adaptation. SemLA leverages a library of LoRA-based adapters indexed with CLIP embeddings, dynamically merging the most relevant adapters based on proximity to the target domain in the embedding space. This approach constructs an ad-hoc model tailored to each specific input without additional training. Our method scales efficiently, enhances explainability by tracking adapter contributions, and inherently protects data privacy, making it ideal for sensitive applications. Comprehensive experiments on a 20-domain benchmark built over 10 standard datasets demonstrate SemLA’s superior adaptability and performance across diverse settings, establishing a new standard in domain adaptation for open-vocabulary semantic segmentation.

arxiv情報

著者 Reza Qorbani,Gianluca Villani,Theodoros Panagiotakopoulos,Marc Botet Colomer,Linus Härenstam-Nielsen,Mattia Segu,Pier Luigi Dovesi,Jussi Karlgren,Daniel Cremers,Federico Tombari,Matteo Poggi
発行日 2025-03-27 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク