要約
特殊なドメイン タスクで優れた性能を発揮するように設計された、ゼロショットのオープンボキャブラリー セマンティック セグメンテーション (OVSS) 用の新しいフレームワークである Seg-TTO を紹介します。
現在のオープンボキャブラリーのアプローチは、ゼロショット設定の下で標準的なセグメンテーションベンチマークでは優れたパフォーマンスを示しますが、高度にドメイン固有のデータセットでは教師ありの対応物には及ばません。
このギャップに対処するために、私たちはセグメンテーション固有のテスト時間の最適化に焦点を当てています。
セグメンテーションでは、表現の局所性と空間構造を維持しながら、単一の画像内の複数の概念を理解する必要があります。
これらの要件に準拠した新しい自己教師あり対物レンズを提案し、それを使用してテスト時にモデル パラメーターを入力画像と位置合わせします。
テキスト モダリティでは、画像内の多様な概念を捉えるためにカテゴリごとに複数の埋め込みを学習します。一方、視覚モダリティでは、ピクセル レベルの損失を計算し、その後、空間構造の保存に特有の埋め込み集計操作を行います。
結果として得られた Seg-TTO と呼ばれるフレームワークは、プラグインプレイ モジュールです。
当社は Seg-TTO を 3 つの最先端の OVSS アプローチと統合し、さまざまな専門領域をカバーする 22 の困難な OVSS タスク全体を評価します。
当社の Seg-TTO は、これらの確立された新しい最先端技術全体で明らかなパフォーマンスの向上を実証しています。
コード: https://github.com/UlinduP/SegTTO。
要約(オリジナル)
We present Seg-TTO, a novel framework for zero-shot, open-vocabulary semantic segmentation (OVSS), designed to excel in specialized domain tasks. While current open vocabulary approaches show impressive performance on standard segmentation benchmarks under zero-shot settings, they fall short of supervised counterparts on highly domain-specific datasets. We focus on segmentation-specific test-time optimization to address this gap. Segmentation requires an understanding of multiple concepts within a single image while retaining the locality and spatial structure of representations. We propose a novel self-supervised objective adhering to these requirements and use it to align the model parameters with input images at test time. In the textual modality, we learn multiple embeddings for each category to capture diverse concepts within an image, while in the visual modality, we calculate pixel-level losses followed by embedding aggregation operations specific to preserving spatial structure. Our resulting framework termed Seg-TTO is a plug-in-play module. We integrate Seg-TTO with three state-of-the-art OVSS approaches and evaluate across 22 challenging OVSS tasks covering a range of specialized domains. Our Seg-TTO demonstrates clear performance improvements across these establishing new state-of-the-art. Code: https://github.com/UlinduP/SegTTO.
arxiv情報
著者 | Ulindu De Silva,Didula Samaraweera,Sasini Wanigathunga,Kavindu Kariyawasam,Kanchana Ranasinghe,Muzammal Naseer,Ranga Rodrigo |
発行日 | 2025-01-08 18:58:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google