要約
タイトル:ニューラルネットワーク表現の人間による調整
要約:
-現代のコンピュータビジョンモデルは、様々なビジョンタスクで人間やそれに近いレベルのパフォーマンスを発揮している。
-しかし、彼らのアーキテクチャやデータ、学習アルゴリズムは、人間のビジョンを生み出すものとは多くの点で異なっている。
-本論文では、人間の行動反応から推定される人間のメンタルレプレゼンテーションとニューラルネットワークによって学習された表現の整合性に影響を与える要因を調査。
-結果、モデルの規模やアーキテクチャには、人間の行動反応との整合性に実質的な影響がないことがわかった。
-一方で、トレーニングデータセットや目的関数は、はるかに大きな影響を与える。
-これらの結果は、2つの異なるタスクを使用して収集された人間の類似性判断の3つのデータセット全体に一貫している。
-さらに、1つのデータセットから学習した行動反応から得られたニューラルネットワーク表現の線形変換は、他の2つのデータセットの人間の類似性判断との整合性を大幅に改善する。
-また、食べ物や動物などの人間の概念は、ニューラルネットワークによってうまく表現される一方、ロイヤルやスポーツ関連のオブジェクトなどはそうではないことが明らかになっている。
-全体として、より大きく、多様なデータセットでトレーニングされたモデルが、ImageNetのみでトレーニングされたモデルよりもより人間と一致するコンセプチュアルな表現をもつニューラルネットワークをトレーニングするには、スケーリングだけでは十分ではないという結果が示唆される。
要約(オリジナル)
Today’s computer vision models achieve human or near-human level performance across a wide variety of vision tasks. However, their architectures, data, and learning algorithms differ in numerous ways from those that give rise to human vision. In this paper, we investigate the factors that affect the alignment between the representations learned by neural networks and human mental representations inferred from behavioral responses. We find that model scale and architecture have essentially no effect on the alignment with human behavioral responses, whereas the training dataset and objective function both have a much larger impact. These findings are consistent across three datasets of human similarity judgments collected using two different tasks. Linear transformations of neural network representations learned from behavioral responses from one dataset substantially improve alignment with human similarity judgments on the other two datasets. In addition, we find that some human concepts such as food and animals are well-represented by neural networks whereas others such as royal or sports-related objects are not. Overall, although models trained on larger, more diverse datasets achieve better alignment with humans than models trained on ImageNet alone, our results indicate that scaling alone is unlikely to be sufficient to train neural networks with conceptual representations that match those used by humans.
arxiv情報
| 著者 | Lukas Muttenthaler,Jonas Dippel,Lorenz Linhardt,Robert A. Vandermeulen,Simon Kornblith |
| 発行日 | 2023-04-03 09:02:13+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI