OpenSlot: Mixed Open-set Recognition with Object-centric Learning

要約

既存のオープンセット認識 (OSR) 研究では通常、各画像にはクラス ラベルが 1 つだけ含まれており、未知のテスト セット (陰性) には既知のテスト セット (陽性) から独立したラベル空間があると想定されており、このシナリオはフルラベル シフトと呼ばれます。
この論文では、混合 OSR 問題を紹介します。この問題では、テスト画像に複数のクラス セマンティクスが含まれており、既知のクラスと未知のクラスがネガで同時に発生し、より困難なスーパー ラベル シフトにつながります。
混合 OSR に対処するには、画像内の異なるクラスのセマンティクスを正確に区別し、それらの「既知性」を測定するための分類モデルが必要です。
この研究では、オブジェクト中心の学習に基づいて構築された OpenSlot フレームワークを提案します。
OpenSlot はスロット機能を利用して、多様なクラス セマンティクスを表現し、クラス予測を生成します。
私たちが提案するアンチノイズスロット (ANS) 技術を通じて、分類トレーニング中のノイズ (無効な背景) スロットの影響を軽減し、クラス予測とグランド トゥルースの間の意味論的な不整合に効果的に対処します。
私たちは、OpenSlot を使用して、混合および従来の OSR ベンチマークで広範な実験を行っています。
OpenSlot は、複雑な設計を行わずに、単一および複数ラベルの混合 OSR タスクにわたるスーパーラベル シフトの検出において既存の OSR 研究を上回るだけでなく、従来のベンチマークで最先端のパフォーマンスを達成します。
注目すべきことに、私たちのメソッドはトレーニング中に境界ボックスを使用せずにクラス オブジェクトをローカライズできます。
オープンセットのオブジェクト検出における競争力のあるパフォーマンスは、ラベル シフトと計算効率と一般化における利点を明示的に説明する OpenSlot の能力を示しています。

要約(オリジナル)

Existing open-set recognition (OSR) studies typically assume that each image contains only one class label, and the unknown test set (negative) has a disjoint label space from the known test set (positive), a scenario termed full-label shift. This paper introduces the mixed OSR problem, where test images contain multiple class semantics, with known and unknown classes co-occurring in negatives, leading to a more challenging super-label shift. Addressing the mixed OSR requires classification models to accurately distinguish different class semantics within images and measure their ‘knowness’. In this study, we propose the OpenSlot framework, built upon object-centric learning. OpenSlot utilizes slot features to represent diverse class semantics and produce class predictions. Through our proposed anti-noise-slot (ANS) technique, we mitigate the impact of noise (invalid and background) slots during classification training, effectively addressing the semantic misalignment between class predictions and the ground truth. We conduct extensive experiments with OpenSlot on mixed & conventional OSR benchmarks. Without elaborate designs, OpenSlot not only exceeds existing OSR studies in detecting super-label shifts across single & multi-label mixed OSR tasks but also achieves state-of-the-art performance on conventional benchmarks. Remarkably, our method can localize class objects without using bounding boxes during training. The competitive performance in open-set object detection demonstrates OpenSlot’s ability to explicitly explain label shifts and benefits in computational efficiency and generalization.

arxiv情報

著者 Xu Yin,Fei Pan,Guoyuan An,Yuchi Huo,Zixuan Xie,Sung-Eui Yoon
発行日 2024-07-02 16:00:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク