要約
乳幼児は、言語入力の習得に先立ち、複雑な視覚的理解を急速に発達させる。コンピュータビジョンが人間の視覚システムの再現を目指す中で、乳幼児の視覚発達を理解することは貴重な知見を提供するかもしれない。本論文では、この問いを探求する学際的研究を紹介する。乳児の学習過程を模倣する計算モデルは、乳児が自然に学習する方法と同様に、聞いた語彙を超えたより広範な視覚概念を発達させることができるのだろうか?このことを調べるために、我々は最近Science誌に発表されたVongらのモデルを分析する。このモデルは、書き起こされた親の発話と対になった、一人の子供の縦断的な自我中心画像で学習される。我々は、モデルの内部表現に隠された視覚概念ニューロンを発見できる、訓練不要のフレームワークを導入する。その結果、これらのニューロンは、元の語彙の外にある物体を分類できることがわかった。さらに、CLIPやImageNetのようなコンピュータビジョンモデルの視覚表現と、幼児のようなモデルの視覚表現を比較し、重要な類似点と相違点を明らかにする。最終的に、我々の研究は、幼児の視覚と言語入力で訓練された計算機モデルの内部表現を分析することで、認知科学とコンピュータビジョンの架け橋となる。
要約(オリジナル)
Infants develop complex visual understanding rapidly, even preceding of the acquisition of linguistic inputs. As computer vision seeks to replicate the human vision system, understanding infant visual development may offer valuable insights. In this paper, we present an interdisciplinary study exploring this question: can a computational model that imitates the infant learning process develop broader visual concepts that extend beyond the vocabulary it has heard, similar to how infants naturally learn? To investigate this, we analyze a recently published model in Science by Vong et al.,which is trained on longitudinal, egocentric images of a single child paired with transcribed parental speech. We introduce a training-free framework that can discover visual concept neurons hidden in the model’s internal representations. Our findings show that these neurons can classify objects outside its original vocabulary. Furthermore, we compare the visual representations in infant-like models with those in moder computer vision models, such as CLIP or ImageNet pre-trained model, highlighting key similarities and differences. Ultimately, our work bridges cognitive science and computer vision by analyzing the internal representations of a computational model trained on an infant’s visual and linguistic inputs.
arxiv情報
| 著者 | Xueyi Ke,Satoshi Tsutsui,Yayun Zhang,Bihan Wen | 
| 発行日 | 2025-02-03 06:02:56+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
