要約
オープンボキャブラリーセマンティックセグメンテーションにより、モデルはトレーニングデータを超えて新しいオブジェクトカテゴリを特定できます。
この柔軟性は大きな進歩を表していますが、現在のアプローチは、手動で指定されたクラス名に入力として依然として依存しており、実際のアプリケーションに固有のボトルネックを作成します。
この作業は、語彙を含まないセマンティックセグメンテーションパイプラインを提案し、事前定義されたクラスの語彙の必要性を排除します。
具体的には、ユーザーがシーン内のすべての潜在的なオブジェクトの知識を必要とする鶏肉と卵の問題に対処しますが、セグメンテーションの目的は、これらのオブジェクトを発見することです。
提案されたアプローチは、視覚言語モデルを活用して、オブジェクトを自動的に認識し、適切なクラス名を生成し、クラスの仕様と命名品質の課題を解決することを目指しています。
いくつかのパブリックデータセットでの広範な実験を通じて、特に画像テキストクラスが生成された説明とペアになっている場合、モデルパフォーマンスにおけるテキストエンコーダーの重要な役割を強調します。
セグメンテーションテキストエンコーダーの感度によって導入された課題は、クラスタグ付けプロセス内の偽ネガに誤ったネガになり、タスクに複雑さを加えますが、完全に自動化されたパイプラインが、多様な実際のシナリオ全体で語彙のないセグメンテーションの精度を大幅に向上させることを示しています。
要約(オリジナル)
Open-vocabulary semantic segmentation enables models to identify novel object categories beyond their training data. While this flexibility represents a significant advancement, current approaches still rely on manually specified class names as input, creating an inherent bottleneck in real-world applications. This work proposes a Vocabulary-Free Semantic Segmentation pipeline, eliminating the need for predefined class vocabularies. Specifically, we address the chicken-and-egg problem where users need knowledge of all potential objects within a scene to identify them, yet the purpose of segmentation is often to discover these objects. The proposed approach leverages Vision-Language Models to automatically recognize objects and generate appropriate class names, aiming to solve the challenge of class specification and naming quality. Through extensive experiments on several public datasets, we highlight the crucial role of the text encoder in model performance, particularly when the image text classes are paired with generated descriptions. Despite the challenges introduced by the sensitivity of the segmentation text encoder to false negatives within the class tagging process, which adds complexity to the task, we demonstrate that our fully automated pipeline significantly enhances vocabulary-free segmentation accuracy across diverse real-world scenarios.
arxiv情報
著者 | Klara Reichard,Giulia Rizzoli,Stefano Gasperini,Lukas Hoyer,Pietro Zanuttigh,Nassir Navab,Federico Tombari |
発行日 | 2025-02-17 15:17:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google