CoNe: Contrast Your Neighbours for Supervised Image Classification

要約

画像分類は、コンピューター ビジョンと機械学習の研究における長年の問題です。
最近の研究 (例: SupCon 、 Triplet 、 max-margin ) は、すべてのクラス内サンプルがクラスの中心に向かってしっかりと引き寄せられるべきであるという前提で、クラス内サンプルを積極的かつコンパクトにグループ化することに主に焦点を当てています。
ただし、データセット内のクラス内分散が無視されるため、そのような目的を達成するのは非常に困難です。
(つまり、同じクラスの異なるインスタンスには大きな違いがある可能性があります)。
したがって、そのような単調な目的では十分ではありません。
より有益な目標を提供するために、教師あり画像分類のためのシンプルかつ実用的な学習フレームワークである Contrast Your Neighbors (CoNe) を紹介します。
具体的には、CoNe では、各サンプルはそのクラス センターによって監視されるだけでなく、類似した隣接サンプルの特徴をアンカーとして直接利用して、より適応的で洗練されたターゲットを生成します。
さらに、パフォーマンスをさらに向上させるために、同様のインスタンスが同様の確率分布を持つことを可能にする、より有益な正則化として「分布の一貫性」を提案します。
広範な実験結果は、CoNe がさまざまなベンチマーク データセット、ネットワーク アーキテクチャ、設定にわたって最先端のパフォーマンスを達成することを実証しています。
特に、複雑なトレーニング レシピがなくても、当社の CoNe は ResNet-50 を使用した ImageNet で 80.8\% のトップ 1 精度を達成しており、これは最近の Timm トレーニング レシピ (80.4\%) を上回っています。
コードと事前トレーニングされたモデルは \href{https://github.com/mingkai-zheng/CoNe}{https://github.com/mingkai-zheng/CoNe} で入手できます。

要約(オリジナル)

Image classification is a longstanding problem in computer vision and machine learning research. Most recent works (e.g. SupCon , Triplet, and max-margin) mainly focus on grouping the intra-class samples aggressively and compactly, with the assumption that all intra-class samples should be pulled tightly towards their class centers. However, such an objective will be very hard to achieve since it ignores the intra-class variance in the dataset. (i.e. different instances from the same class can have significant differences). Thus, such a monotonous objective is not sufficient. To provide a more informative objective, we introduce Contrast Your Neighbours (CoNe) – a simple yet practical learning framework for supervised image classification. Specifically, in CoNe, each sample is not only supervised by its class center but also directly employs the features of its similar neighbors as anchors to generate more adaptive and refined targets. Moreover, to further boost the performance, we propose “distributional consistency’ as a more informative regularization to enable similar instances to have a similar probability distribution. Extensive experimental results demonstrate that CoNe achieves state-of-the-art performance across different benchmark datasets, network architectures, and settings. Notably, even without a complicated training recipe, our CoNe achieves 80.8\% Top-1 accuracy on ImageNet with ResNet-50, which surpasses the recent Timm training recipe (80.4\%). Code and pre-trained models are available at \href{https://github.com/mingkai-zheng/CoNe}{https://github.com/mingkai-zheng/CoNe}.

arxiv情報

著者 Mingkai Zheng,Shan You,Lang Huang,Xiu Su,Fei Wang,Chen Qian,Xiaogang Wang,Chang Xu
発行日 2023-08-21 14:49:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク