Improving neural network representations using human similarity judgments


ディープ ニューラル ネットワークは、多くのコンピューター ビジョン タスクにおいて人間レベルのパフォーマンスに達しました。
私たちの結果は、人間の視覚表現が少数の例からの学習を促進する方法でグローバルに組織化されており、このグローバル構造をニューラル ネットワーク表現に組み込むことで下流タスクのパフォーマンスが向上することを示しています。


Deep neural networks have reached human-level performance on many computer vision tasks. However, the objectives used to train these networks enforce only that similar images are embedded at similar locations in the representation space, and do not directly constrain the global structure of the resulting space. Here, we explore the impact of supervising this global structure by linearly aligning it with human similarity judgments. We find that a naive approach leads to large changes in local representational structure that harm downstream performance. Thus, we propose a novel method that aligns the global structure of representations while preserving their local structure. This global-local transform considerably improves accuracy across a variety of few-shot learning and anomaly detection tasks. Our results indicate that human visual representations are globally organized in a way that facilitates learning from few examples, and incorporating this global structure into neural network representations improves performance on downstream tasks.


著者 Lukas Muttenthaler,Lorenz Linhardt,Jonas Dippel,Robert A. Vandermeulen,Katherine Hermann,Andrew K. Lampinen,Simon Kornblith
発行日 2023-06-07 15:17:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV, cs.LG パーマリンク