Performance-optimized deep neural networks are evolving into worse models of inferotemporal visual cortex

要約

過去 10 年間の計算神経科学における最も影響力のある発見の 1 つは、ディープ ニューラル ネットワーク (DNN) の物体認識精度が、下側頭 (IT) 皮質における自然画像に対する神経反応を予測する能力と相関しているということです。
この発見は、物体認識が視覚野の中核目的であるという長年の理論を裏付け、より正確な DNN が画像に対する IT ニューロンの反応のより良いモデルとして機能することを示唆しました。
それ以来、ディープ ラーニングは規模の革命を経験しました。数十億枚の画像でトレーニングされた数十億のパラメーター スケールの DNN は、物体認識を含む視覚タスクにおいて人間に匹敵するか、人間を上回っています。
今日の DNN は、物体認識の精度が向上するにつれて、画像に対する IT ニューロンの反応をより正確に予測できるようになったのでしょうか?
驚くべきことに、3 つの独立した実験を通じて、これが当てはまらないことがわかりました。
DNN は、ImageNet 上で精度が向上するにつれて、IT のモデルとしてはますます悪くなっています。
DNN がなぜこのトレードオフを経験するのかを理解し、DNN が視覚システムのモデリングに依然として適切なパラダイムであるかどうかを評価するために、自然画像によって引き起こされるニューロン活動の空間的に分解されたマップをキャプチャする IT の記録に目を向けます。
これらのニューロン活動マップは、ImageNet でトレーニングされた DNN が IT によってエンコードされたものとは異なる視覚的特徴に依存することを学習し、精度が向上するにつれてこの問題が悪化することを明らかにしています。
私たちは、学習した表現を人間と一致させる DNN 用のプラグアンドプレイ トレーニング ルーチンであるニューラル ハーモナイザーを使用して、この問題を解決しました。
私たちの結果は、調和された DNN が、現在の DNN を苦しめる ImageNet の精度とニューラル予測の精度の間のトレードオフを打破し、より正確な生物学的視覚モデルへの道を提供することを示唆しています。

要約(オリジナル)

One of the most impactful findings in computational neuroscience over the past decade is that the object recognition accuracy of deep neural networks (DNNs) correlates with their ability to predict neural responses to natural images in the inferotemporal (IT) cortex. This discovery supported the long-held theory that object recognition is a core objective of the visual cortex, and suggested that more accurate DNNs would serve as better models of IT neuron responses to images. Since then, deep learning has undergone a revolution of scale: billion parameter-scale DNNs trained on billions of images are rivaling or outperforming humans at visual tasks including object recognition. Have today’s DNNs become more accurate at predicting IT neuron responses to images as they have grown more accurate at object recognition? Surprisingly, across three independent experiments, we find this is not the case. DNNs have become progressively worse models of IT as their accuracy has increased on ImageNet. To understand why DNNs experience this trade-off and evaluate if they are still an appropriate paradigm for modeling the visual system, we turn to recordings of IT that capture spatially resolved maps of neuronal activity elicited by natural images. These neuronal activity maps reveal that DNNs trained on ImageNet learn to rely on different visual features than those encoded by IT and that this problem worsens as their accuracy increases. We successfully resolved this issue with the neural harmonizer, a plug-and-play training routine for DNNs that aligns their learned representations with humans. Our results suggest that harmonized DNNs break the trade-off between ImageNet accuracy and neural prediction accuracy that assails current DNNs and offer a path to more accurate models of biological vision.

arxiv情報

著者 Drew Linsley,Ivan F. Rodriguez,Thomas Fel,Michael Arcaro,Saloni Sharma,Margaret Livingstone,Thomas Serre
発行日 2023-06-06 15:34:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク