Visual Recognition with Deep Nearest Centroids

要約

最も古典的で単純な分類子の 1 つである Nearest Centroids を再検討することにより、大規模な視覚認識のための概念的にエレガントでありながら驚くほど効果的なネットワークである Deep Nearest Centroids (DNC) を考案します。
現在のディープ モデルは、完全にパラメトリックな方法で分類子を学習し、潜在的なデータ構造を無視し、単純さと説明可能性を欠いています。
代わりに、DNC はノンパラメトリックなケースベースの推論を行います。
トレーニング サンプルのサブセントロイドを利用してクラス分布を記述し、特徴空間におけるテスト データとクラス サブセントロイドの近接性として分類を明確に説明します。
距離ベースの性質により、ネットワーク出力の次元は柔軟であり、すべての学習可能なパラメーターはデータ埋め込み専用です。
つまり、ImageNet 分類で学習したすべての知識は、「事前トレーニングと微調整」パラダイムの下で、ピクセル認識学習に完全に転送できます。
ネストされたシンプルさと直感的な意思決定メカニズムとは別に、DNC は、人間が表示して検査できる実際のトレーニング画像としてサブセントロイドが選択されている場合、その場しのぎの説明可能性を持つことさえできます。
対応するパラメトリックと比較して、DNC は画像分類 (CIFAR-10、ImageNet) でより優れたパフォーマンスを発揮し、さまざまなネットワーク アーキテクチャ (ResNet、Swin) とセグメンテーション モデル (
FCN、DeepLabV3、Swin)。
この作品は、関連分野に基本的な洞察をもたらすと感じています。

要約(オリジナル)

We devise deep nearest centroids (DNC), a conceptually elegant yet surprisingly effective network for large-scale visual recognition, by revisiting Nearest Centroids, one of the most classic and simple classifiers. Current deep models learn the classifier in a fully parametric manner, ignoring the latent data structure and lacking simplicity and explainability. DNC instead conducts nonparametric, case-based reasoning; it utilizes sub-centroids of training samples to describe class distributions and clearly explains the classification as the proximity of test data and the class sub-centroids in the feature space. Due to the distance-based nature, the network output dimensionality is flexible, and all the learnable parameters are only for data embedding. That means all the knowledge learnt for ImageNet classification can be completely transferred for pixel recognition learning, under the ‘pre-training and fine-tuning’ paradigm. Apart from its nested simplicity and intuitive decision-making mechanism, DNC can even possess ad-hoc explainability when the sub-centroids are selected as actual training images that humans can view and inspect. Compared with parametric counterparts, DNC performs better on image classification (CIFAR-10, ImageNet) and greatly boots pixel recognition (ADE20K, Cityscapes), with improved transparency and fewer learnable parameters, using various network architectures (ResNet, Swin) and segmentation models (FCN, DeepLabV3, Swin). We feel this work brings fundamental insights into related fields.

arxiv情報

著者 Wenguan Wang,Cheng Han,Tianfei Zhou,Dongfang Liu
発行日 2023-03-14 16:15:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク