Convolutional Fine-Grained Classification with Self-Supervised Target Relation Regularization

要約

細かい視覚分類は、手動で事前に定義されたターゲット(例えば、ワンショットやハダマードコード)の監視下で、深い表現学習によって対処することができる。このようなターゲットコーディング方式は、クラス間相関をモデル化する柔軟性に欠け、スパースでアンバランスなデータ分布にも敏感である。そこで、本論文では、新しいターゲットコーディング方式である動的ターゲット関係グラフ(DTRG)を導入する。DTRGは、補助的な特徴正則化として、入力画像からマッピングされる自己生成型の構造出力である。具体的には、クラスレベルの特徴中心をオンラインで計算し、表現空間におけるカテゴリ間距離を生成することで、ノンパラメトリックに動的グラフで表現できるように設計されている。このクラスレベルの中心を軸としたクラス内特徴量の変動を明示的に最小化することで、識別的な特徴の学習を促進することができる。さらに、クラス間の依存関係を利用することにより、提案するターゲットグラフは表現学習におけるデータのスパース性とアンバランス性を緩和することができる。本論文では、近年のミックスアップスタイルのデータ拡張の成功に触発され、ランダム性をダイナミックターゲット関係グラフのソフト構築に導入し、ターゲットクラスの関係多様性をさらに探索する。実験結果は、複数の視覚分類タスクの多様なベンチマークにおいて、本手法の有効性を示すことができ、特に、人気のある細粒度オブジェクトベンチマークにおいて最先端の性能を達成し、疎で不均衡なデータに対して優れた頑健性を示した。ソースコードは https://github.com/AkonLau/DTRG で公開されています。

要約(オリジナル)

Fine-grained visual classification can be addressed by deep representation learning under supervision of manually pre-defined targets (e.g., one-hot or the Hadamard codes). Such target coding schemes are less flexible to model inter-class correlation and are sensitive to sparse and imbalanced data distribution as well. In light of this, this paper introduces a novel target coding scheme — dynamic target relation graphs (DTRG), which, as an auxiliary feature regularization, is a self-generated structural output to be mapped from input images. Specifically, online computation of class-level feature centers is designed to generate cross-category distance in the representation space, which can thus be depicted by a dynamic graph in a non-parametric manner. Explicitly minimizing intra-class feature variations anchored on those class-level centers can encourage learning of discriminative features. Moreover, owing to exploiting inter-class dependency, the proposed target graphs can alleviate data sparsity and imbalanceness in representation learning. Inspired by recent success of the mixup style data augmentation, this paper introduces randomness into soft construction of dynamic target relation graphs to further explore relation diversity of target classes. Experimental results can demonstrate the effectiveness of our method on a number of diverse benchmarks of multiple visual classification tasks, especially achieving the state-of-the-art performance on popular fine-grained object benchmarks and superior robustness against sparse and imbalanced data. Source codes are made publicly available at https://github.com/AkonLau/DTRG.

arxiv情報

著者 Kangjun Liu,Ke Chen,Kui Jia
発行日 2022-08-03 11:51:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク