要約
霊長類の腹側視覚河川の機能的役割の研究は、伝統的にオブジェクトの分類に焦点を当てており、多くの場合、多くの事前の証拠にもかかわらず、オブジェクトの位置やポーズなどの「空間的」潜在体を推定する上での役割を無視しています。
ほとんどの主要な腹部流れモデルは、オブジェクトの分類のためのネットワークを最適化することによって導き出されます。これは、腹側の流れがそのような目的の下でも導出されていることを意味するようです。
ここでは、別の仮説を探ります。腹側の流れは、空間的潜伏物質を推定するために最適化される可能性がありますか?
そして、密接に関連する質問:分類と比較して、空間的潜在推定から表現が学習された場合は、どの程度異なっていますか?
これらの質問をするために、3Dグラフィックエンジンによって生成された合成画像データセットを活用し、訓練された畳み込みニューラルネットワーク(CNN)をレバレバルして、空間とカテゴリの潜在性の異なる組み合わせを推定しました。
数百のカテゴリでトレーニングされたカテゴリに匹敵する神経アライメントスコアを達成するために、わずかな空間的潜伏物のみを推定するように訓練されたモデルが、モデルの空間的潜在性パフォーマンスは、その神経アラインメントと強く相関することがわかりました。
空間的潜在モデルとカテゴリトレーニングを受けたモデルは、特に初期および中間層で、非常に類似していますが、同一ではありませんが、同一ではありません。
この収束は、トレーニングデータの非ターゲット潜在的変動によって部分的に駆動されるという証拠を提供します。これにより、これらの非ターゲット潜在性の表現の暗黙の学習が促進されます。
まとめると、これらの結果は、空間的潜伏物質などの多くのトレーニング目標が、腹部の流れに類似したモデルに沿った同様のモデルにつながる可能性があることを示唆しています。
したがって、腹側流がオブジェクトの分類のみに最適化されていると想定してはなりません。
フィールドとして、モデルを脳と脳と比較するという尺度を削減して、腹側流の機能的役割をよりよく理解する必要があります。
要約(オリジナル)
Studies of the functional role of the primate ventral visual stream have traditionally focused on object categorization, often ignoring — despite much prior evidence — its role in estimating ‘spatial’ latents such as object position and pose. Most leading ventral stream models are derived by optimizing networks for object categorization, which seems to imply that the ventral stream is also derived under such an objective. Here, we explore an alternative hypothesis: Might the ventral stream be optimized for estimating spatial latents? And a closely related question: How different — if at all — are representations learned from spatial latent estimation compared to categorization? To ask these questions, we leveraged synthetic image datasets generated by a 3D graphic engine and trained convolutional neural networks (CNNs) to estimate different combinations of spatial and category latents. We found that models trained to estimate just a few spatial latents achieve neural alignment scores comparable to those trained on hundreds of categories, and the spatial latent performance of models strongly correlates with their neural alignment. Spatial latent and category-trained models have very similar — but not identical — internal representations, especially in their early and middle layers. We provide evidence that this convergence is partly driven by non-target latent variability in the training data, which facilitates the implicit learning of representations of those non-target latents. Taken together, these results suggest that many training objectives, such as spatial latents, can lead to similar models aligned neurally with the ventral stream. Thus, one should not assume that the ventral stream is optimized for object categorization only. As a field, we need to continue to sharpen our measures of comparing models to brains to better understand the functional roles of the ventral stream.
arxiv情報
著者 | Yudi Xie,Weichen Huang,Esther Alter,Jeremy Schwartz,Joshua B. Tenenbaum,James J. DiCarlo |
発行日 | 2025-02-17 17:50:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google