要約
最近のマスク提案モデルは、ゼロ ショット セマンティック セグメンテーションのパフォーマンスを大幅に改善しました。
ただし、これらのメソッドのトレーニング中に「バックグラウンド」埋め込みを使用すると、結果として得られるモデルが過剰学習して、見えないすべてのクラスを正しいラベルではなくバックグラウンド クラスとして割り当てる傾向があるため、問題があります。
さらに、彼らはテキスト埋め込みのセマンティックな関係を無視します。これは、目に見えるクラスが目に見えないクラスと密接な関係を持っている可能性があるため、間違いなくゼロショット予測にとって非常に有益である可能性があります。
この目的のために、この論文では、トレーニング中にバックグラウンド埋め込みの使用をバイパスし、類似性スコアをランク付けすることにより、テキスト埋め込みとマスク提案の間の意味的関係を同時に活用するための新しいクラス拡張損失を提案します。
目に見えるクラスと見えないクラスの間の関係をさらに把握するために、事前トレーニング済みの視覚言語モデルを使用した効果的な疑似ラベル生成パイプラインを提案します。
いくつかのベンチマーク データセットでの広範な実験は、私たちの方法がゼロ ショット セマンティック セグメンテーションで全体的に最高のパフォーマンスを達成することを示しています。
私たちの方法は柔軟で、困難なオープン語彙のセマンティック セグメンテーションの問題にも適用できます。
要約(オリジナル)
Recent mask proposal models have significantly improved the performance of zero-shot semantic segmentation. However, the use of a `background’ embedding during training in these methods is problematic as the resulting model tends to over-learn and assign all unseen classes as the background class instead of their correct labels. Furthermore, they ignore the semantic relationship of text embeddings, which arguably can be highly informative for zero-shot prediction as seen classes may have close relationship with unseen classes. To this end, this paper proposes novel class enhancement losses to bypass the use of the background embbedding during training, and simultaneously exploit the semantic relationship between text embeddings and mask proposals by ranking the similarity scores. To further capture the relationship between seen and unseen classes, we propose an effective pseudo label generation pipeline using pretrained vision-language model. Extensive experiments on several benchmark datasets show that our method achieves overall the best performance for zero-shot semantic segmentation. Our method is flexible, and can also be applied to the challenging open-vocabulary semantic segmentation problem.
arxiv情報
著者 | Son Duy Dao,Hengcan Shi,Dinh Phung,Jianfei Cai |
発行日 | 2023-01-18 06:55:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google