Scaling Laws for Task-Optimized Models of the Primate Visual Ventral Stream

要約

大規模な物体分類データセットでトレーニングされると、特定の人工ニューラル ネットワーク モデルは、霊長類の視覚腹側流 (VVS) における中核となる物体認識 (COR) の動作と神経応答パターンを近似し始めます。
最近の機械学習の進歩は、モデル サイズ、データセット サイズ、およびコンピューティング リソースをスケーリングすることでタスクのパフォーマンスが向上することを示唆していますが、スケーリングが脳の調整に及ぼす影響は依然として不明です。
この研究では、V1、V2、V4、IT、COR の動作にわたるベンチマークの制御された条件下でトレーニングされた 600 以上のモデルを体系的に評価することにより、霊長類 VVS をモデル化するためのスケーリング則を調査します。
行動の調整はモデルが大きくなるにつれて拡大し続ける一方で、神経の調整は飽和することが観察されています。
この観察結果は、より強い帰納バイアスを持つモデルや高品質の画像を持つデータセットの方が計算効率が高いにもかかわらず、モデル アーキテクチャとトレーニング データセット全体に当てはまります。
スケーリングの増加は、少数のサンプルでトレーニングされた小さなモデルが不十分な位置合わせしか示さない、高レベルの視覚領域に特に有益です。
最後に、モデル サイズよりも大きな割合のコンピューティングをデータ サンプルに割り当てる必要があることを示すスケーリング レシピを開発します。
私たちの結果は、人間の中核となる物体認識行動との整合にはスケーリングのみで十分かもしれないが、現在のアーキテクチャとデータセットでは脳の視覚腹側流の改善されたモデルを生み出すことはできないことを示唆しており、脳のようなモデルを構築する際の新しい戦略の必要性を浮き彫りにしている。

要約(オリジナル)

When trained on large-scale object classification datasets, certain artificial neural network models begin to approximate core object recognition (COR) behaviors and neural response patterns in the primate visual ventral stream (VVS). While recent machine learning advances suggest that scaling model size, dataset size, and compute resources improve task performance, the impact of scaling on brain alignment remains unclear. In this study, we explore scaling laws for modeling the primate VVS by systematically evaluating over 600 models trained under controlled conditions on benchmarks spanning V1, V2, V4, IT and COR behaviors. We observe that while behavioral alignment continues to scale with larger models, neural alignment saturates. This observation remains true across model architectures and training datasets, even though models with stronger inductive bias and datasets with higher-quality images are more compute-efficient. Increased scaling is especially beneficial for higher-level visual areas, where small models trained on few samples exhibit only poor alignment. Finally, we develop a scaling recipe, indicating that a greater proportion of compute should be allocated to data samples over model size. Our results suggest that while scaling alone might suffice for alignment with human core object recognition behavior, it will not yield improved models of the brain’s visual ventral stream with current architectures and datasets, highlighting the need for novel strategies in building brain-like models.

arxiv情報

著者 Abdulkadir Gokce,Martin Schrimpf
発行日 2024-11-08 17:13:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, q-bio.NC パーマリンク