要約
きめの細かい視覚的分類における課題は、異なるサブクラス間の微妙な違いを調査し、正確な識別を達成する方法にあります。
これまでの研究では、この目的を達成するために、大規模な注釈付きデータと事前トレーニングされたディープ モデルに依存していました。
ただし、限られた量のサンプルしか利用できない場合、同様の方法は効果が低くなる可能性があります。
拡散モデルは、データ生成における際立った多様性により、データ拡張に広く採用されています。
ただし、きめの細かい画像には高レベルの詳細が必要なため、既存の方法を直接使用することが困難になります。
この問題に対処するために、我々は、詳細強化拡散モデル (DRDM) と呼ばれる新しいアプローチを提案します。これは、大規模モデルの豊富な知識を活用して、きめの細かいデータ拡張を行い、識別意味的組み換え (DSR) と空間知識を含む 2 つの重要なコンポーネントで構成されます。
参考〜(SKR)。
具体的には、DSR は、ラベルから暗黙的な類似関係を抽出し、ラベルとインスタンス間のセマンティック マッピングを再構築するように設計されており、これにより、異なるサブクラス間の微妙な違いをより適切に識別できるようになります。
さらに、さまざまなデータセットの分布を特徴空間の参照として組み込む SKR モジュールを紹介します。
これにより、SKR は少数ショット FGVC タスクでサブクラス特徴の高次元分布を集約できるようになり、決定境界が拡張されます。
これら 2 つの重要なコンポーネントを通じて、大規模モデルからの知識を効果的に利用してデータ不足の問題に対処し、その結果、きめの細かい視覚認識タスクのパフォーマンスが向上します。
広範な実験により、DRDM によって一貫したパフォーマンスが向上することが実証されています。
要約(オリジナル)
The challenge in fine-grained visual categorization lies in how to explore the subtle differences between different subclasses and achieve accurate discrimination. Previous research has relied on large-scale annotated data and pre-trained deep models to achieve the objective. However, when only a limited amount of samples is available, similar methods may become less effective. Diffusion models have been widely adopted in data augmentation due to their outstanding diversity in data generation. However, the high level of detail required for fine-grained images makes it challenging for existing methods to be directly employed. To address this issue, we propose a novel approach termed the detail reinforcement diffusion model~(DRDM), which leverages the rich knowledge of large models for fine-grained data augmentation and comprises two key components including discriminative semantic recombination (DSR) and spatial knowledge reference~(SKR). Specifically, DSR is designed to extract implicit similarity relationships from the labels and reconstruct the semantic mapping between labels and instances, which enables better discrimination of subtle differences between different subclasses. Furthermore, we introduce the SKR module, which incorporates the distributions of different datasets as references in the feature space. This allows the SKR to aggregate the high-dimensional distribution of subclass features in few-shot FGVC tasks, thus expanding the decision boundary. Through these two critical components, we effectively utilize the knowledge from large models to address the issue of data scarcity, resulting in improved performance for fine-grained visual recognition tasks. Extensive experiments demonstrate the consistent performance gain offered by our DRDM.
arxiv情報
著者 | Tianxu Wu,Shuo Ye,Shuhuang Chen,Qinmu Peng,Xinge You |
発行日 | 2024-05-15 07:51:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google