AlignZeg: Mitigating Objective Misalignment for Zero-shot Semantic Segmentation

要約

ゼロショット視覚認識のパフォーマンスを損なう深刻な問題は、客観的ミスアライメントと呼ばれます。つまり、学習目標は、目に見えないクラスよりも目に見えるクラスの認識精度の向上を優先しますが、後者が追求すべき真の目標です。
この問題は、ゼロショット画像セグメンテーションではより重要になります。これは、より強力な(つまり、ピクセルレベルの)監視により、見えるクラスと見えないクラスの間に大きなギャップが生じるためです。
これを軽減するために、私たちは AlignZeg という名前の新しいアーキテクチャを提案します。これは、ゼロショット セグメンテーションの目標によりよく適合する、提案の抽出、分類、修正を含むセグメンテーション パイプラインの包括的な改善を具体化したものです。
(1) 相互に洗練された提案の抽出。
AlignZeg は、マスク クエリと視覚的特徴の間の相互作用を利用して、詳細なクラスに依存しないマスク提案の抽出を容易にします。
(2) 一般化強化された提案分類。
AlignZeg は合成データを導入し、複数のバックグラウンド プロトタイプを組み込んで、より一般化可能な特徴空間を割り当てます。
(3) 予測バイアス補正。
推論段階で、AlignZeg はクラス インジケーターを使用して潜在的な未確認のクラス提案を見つけ、その後予測ポストプロセスを実行して予測バイアスを修正します。
実験では、hIoU の平均 3.8% 増加が示すように、AlignZeg がゼロショット セマンティック セグメンテーションを著しく強化することが実証されています。これは主に、目に見えないクラスの識別における 7.1% の改善によるものであり、この改善が客観的な不整合の問題の軽減によるものであることをさらに検証します。

要約(オリジナル)

A serious issue that harms the performance of zero-shot visual recognition is named objective misalignment, i.e., the learning objective prioritizes improving the recognition accuracy of seen classes rather than unseen classes, while the latter is the true target to pursue. This issue becomes more significant in zero-shot image segmentation because the stronger (i.e., pixel-level) supervision brings a larger gap between seen and unseen classes. To mitigate it, we propose a novel architecture named AlignZeg, which embodies a comprehensive improvement of the segmentation pipeline, including proposal extraction, classification, and correction, to better fit the goal of zero-shot segmentation. (1) Mutually-Refined Proposal Extraction. AlignZeg harnesses a mutual interaction between mask queries and visual features, facilitating detailed class-agnostic mask proposal extraction. (2) Generalization-Enhanced Proposal Classification. AlignZeg introduces synthetic data and incorporates multiple background prototypes to allocate a more generalizable feature space. (3) Predictive Bias Correction. During the inference stage, AlignZeg uses a class indicator to find potential unseen class proposals followed by a prediction postprocess to correct the prediction bias. Experiments demonstrate that AlignZeg markedly enhances zero-shot semantic segmentation, as shown by an average 3.8% increase in hIoU, primarily attributed to a 7.1% improvement in identifying unseen classes, and we further validate that the improvement comes from alleviating the objective misalignment issue.

arxiv情報

著者 Jiannan Ge,Lingxi Xie,Hongtao Xie,Pandeng Li,Xiaopeng Zhang,Yongdong Zhang,Qi Tian
発行日 2024-04-08 16:51:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク