Human alignment of neural network representations

要約

今日のコンピュータビジョンモデルは、様々なビジョンタスクにおいて、人間または人間に近いレベルの性能を達成している。しかし、そのアーキテクチャ、データ、学習アルゴリズムは、人間の視覚を生み出すものとは多くの点で異なっている。本論文では、ニューラルネットワークが学習した表現と、行動反応から推測される人間の心的表現との間の整合性に影響を与える要因について調査する。その結果、モデルの規模やアーキテクチャは人間の行動反応との整合性に基本的に影響を与えないが、学習データセットと目的関数は共に大きな影響を与えることが分かった。これらの知見は、2つの異なるタスクで収集された人間の類似性判断の3つのデータセットで一貫している。1つのデータセットで得られた行動反応から学習したニューラルネットワーク表現の線形変換は、他の2つのデータセットにおける人間の類似性判断との整合を大幅に改善する。また、食べ物や動物などの人間の概念がニューラルネットワークによく表現される一方で、王室やスポーツ関連のオブジェクトなどの他の概念がうまく表現されないことが分かった。全体として、より大規模で多様なデータセットで学習したモデルは、ImageNetのみで学習したモデルよりも人間との整合が良いが、我々の結果は、人間が使う概念表現と一致するニューラルネットワークを学習するには、スケーリングだけでは不十分であることを示すものであった。

要約(オリジナル)

Today’s computer vision models achieve human or near-human level performance across a wide variety of vision tasks. However, their architectures, data, and learning algorithms differ in numerous ways from those that give rise to human vision. In this paper, we investigate the factors that affect the alignment between the representations learned by neural networks and human mental representations inferred from behavioral responses. We find that model scale and architecture have essentially no effect on the alignment with human behavioral responses, whereas the training dataset and objective function both have a much larger impact. These findings are consistent across three datasets of human similarity judgments collected using two different tasks. Linear transformations of neural network representations learned from behavioral responses from one dataset substantially improve alignment with human similarity judgments on the other two datasets. In addition, we find that some human concepts such as food and animals are well-represented by neural networks whereas others such as royal or sports-related objects are not. Overall, although models trained on larger, more diverse datasets achieve better alignment with humans than models trained on ImageNet alone, our results indicate that scaling alone is unlikely to be sufficient to train neural networks with conceptual representations that match those used by humans.

arxiv情報

著者 Lukas Muttenthaler,Jonas Dippel,Lorenz Linhardt,Robert A. Vandermeulen,Simon Kornblith
発行日 2023-02-06 11:21:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, q-bio.NC パーマリンク