要約
ディープ ニューラル ネットワークは、多くのコンピューター ビジョン タスクにおいて人間レベルのパフォーマンスに達しました。
ただし、これらのネットワークのトレーニングに使用される目的は、類似の画像が表現空間の類似の位置に埋め込まれることのみを強制し、結果として得られる空間のグローバル構造を直接制約するものではありません。
ここでは、人間の類似性の判断と線形的に一致させることによって、この地球規模の構造を監視することの影響を調査します。
素朴なアプローチは、ローカル表現構造に大きな変化をもたらし、下流のパフォーマンスに悪影響を与えることがわかりました。
したがって、表現のローカル構造を維持しながら表現のグローバル構造を調整する新しい方法を提案します。
このグローバル-ローカル変換により、さまざまな数ショット学習および異常検出タスク全体の精度が大幅に向上します。
私たちの結果は、人間の視覚表現が少数の例からの学習を促進する方法でグローバルに組織化されており、このグローバル構造をニューラル ネットワーク表現に組み込むことで下流タスクのパフォーマンスが向上することを示しています。
要約(オリジナル)
Deep neural networks have reached human-level performance on many computer vision tasks. However, the objectives used to train these networks enforce only that similar images are embedded at similar locations in the representation space, and do not directly constrain the global structure of the resulting space. Here, we explore the impact of supervising this global structure by linearly aligning it with human similarity judgments. We find that a naive approach leads to large changes in local representational structure that harm downstream performance. Thus, we propose a novel method that aligns the global structure of representations while preserving their local structure. This global-local transform considerably improves accuracy across a variety of few-shot learning and anomaly detection tasks. Our results indicate that human visual representations are globally organized in a way that facilitates learning from few examples, and incorporating this global structure into neural network representations improves performance on downstream tasks.
arxiv情報
著者 | Lukas Muttenthaler,Lorenz Linhardt,Jonas Dippel,Robert A. Vandermeulen,Katherine Hermann,Andrew K. Lampinen,Simon Kornblith |
発行日 | 2023-06-07 15:17:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google