要約
詳細なオープンセット認識 (FineOSR) は、未知のクラスの画像を拒否しながら、微妙な外観の違いを持つクラスに属する画像を認識することを目的としています。
OSR の最近の傾向は、未知の検出を識別するための生成モデルの利点を示しています。
生成モデルの一種として、エネルギーベース モデル (EBM) は、生成タスクと識別タスクのハイブリッド モデリングの可能性があります。
ただし、既存の EBM のほとんどは、高次元空間での密度推定に問題があり、これはきめの細かいクラスから画像を認識するために重要です。
この論文では、きめの細かい視覚的な世界における OSR のエネルギーベースの事前分布を使用して、低次元の潜在空間を探索します。
具体的には、潜在空間 EBM に基づいて、表現力、粒度、
それぞれ、粒度の細かいクラスのサンプルの密度と密度。
私たちの方法は柔軟で、強力な視覚的な分類と生成のために最新のビジョン トランスフォーマーを利用できます。
この方法は、高解像度の写真のようにリアルな偽画像を生成する機能を維持しながら、詳細な視覚分類データセットと一般的な視覚分類データセットの両方で検証されています。
要約(オリジナル)
Fine-grained open-set recognition (FineOSR) aims to recognize images belonging to classes with subtle appearance differences while rejecting images of unknown classes. A recent trend in OSR shows the benefit of generative models to discriminative unknown detection. As a type of generative model, energy-based models (EBM) are the potential for hybrid modeling of generative and discriminative tasks. However, most existing EBMs suffer from density estimation in high-dimensional space, which is critical to recognizing images from fine-grained classes. In this paper, we explore the low-dimensional latent space with energy-based prior distribution for OSR in a fine-grained visual world. Specifically, based on the latent space EBM, we propose an attribute-aware information bottleneck (AIB), a residual attribute feature aggregation (RAFA) module, and an uncertainty-based virtual outlier synthesis (UVOS) module to improve the expressivity, granularity, and density of the samples in fine-grained classes, respectively. Our method is flexible to take advantage of recent vision transformers for powerful visual classification and generation. The method is validated on both fine-grained and general visual classification datasets while preserving the capability of generating photo-realistic fake images with high resolution.
arxiv情報
著者 | Wentao Bao,Qi Yu,Yu Kong |
発行日 | 2023-10-30 02:37:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google