Renovating Names in Open-Vocabulary Segmentation Benchmarks

要約

名前は人間の認知モデルと視覚言語モデルの両方にとって不可欠です。
オープン語彙モデルは、クラス名をテキスト プロンプトとして利用して、トレーニング中に表示されないカテゴリに一般化します。
ただし、名前の品質は見落とされることが多く、既存のデータセットでは十分な精度が欠けています。
このペーパーでは、オープン語彙セグメンテーション ベンチマーク (RENOVATE) で名前を「刷新」するためのフレームワークを提示することで、この未解明な問題に対処します。
人間による研究を通じて、モデルによって生成された名前は視覚セグメントをより正確に記述したものであるため、単純な名前変更によって既存のデータセットの品質が向上することが実証されました。
さらに、刷新された名前を使用すると、より強力なオープン語彙セグメンテーション モデルのトレーニングが可能になることを示します。
名前の品質評価にオープン語彙セグメンテーションを使用することで、さまざまな最先端モデルのさまざまなベンチマークにおいて、刷新された名前が元の名前に比べて最大 16% の相対的な改善につながることを示しました。
私たちは、いくつかの人気のあるセグメンテーション データセット (ADE20K、Cityscapes、PASCAL Context) のコードと再ラベル付けを研究コミュニティに提供しています。

要約(オリジナル)

Names are essential to both human cognition and vision-language models. Open-vocabulary models utilize class names as text prompts to generalize to categories unseen during training. However, name qualities are often overlooked and lack sufficient precision in existing datasets. In this paper, we address this underexplored problem by presenting a framework for ‘renovating’ names in open-vocabulary segmentation benchmarks (RENOVATE). Through human study, we demonstrate that the names generated by our model are more precise descriptions of the visual segments and hence enhance the quality of existing datasets by means of simple renaming. We further demonstrate that using our renovated names enables training of stronger open-vocabulary segmentation models. Using open-vocabulary segmentation for name quality evaluation, we show that our renovated names lead to up to 16% relative improvement from the original names on various benchmarks across various state-of-the-art models. We provide our code and relabelings for several popular segmentation datasets (ADE20K, Cityscapes, PASCAL Context) to the research community.

arxiv情報

著者 Haiwen Huang,Songyou Peng,Dan Zhang,Andreas Geiger
発行日 2024-03-14 17:35:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク