Caregiver Talk Shapes Toddler Vision: A Computational Study of Dyadic Play

要約

幼児の物体を認識して分類する能力は徐々に発達します。
生後 2 年目は、より意味論的な視覚表現の出現と、単語の意味のより深い理解の両方によって特徴付けられます。
これは、言語入力が視覚表現の形成に重要な役割を果たす可能性があることを示唆しています。
しかし、二者遊びのような言葉の学習に適した状況であっても、養育者の発話はまばらで曖昧であり、多くの場合、子どもが参加しているものとは異なる対象について言及しています。
ここでは、介護者の発話が視覚的表現をどの程度向上させることができるかを系統的に調査します。
このために、二者プレイ中の視覚表現学習の計算モデルを提案します。
キャプションとしてモデル化された介護者の発話を聞きながら、家庭環境のさまざまな場所でおもちゃのオブジェクトを移動および回転させる幼児エージェントによって知覚される自己中心的な画像の合成データセットを紹介します。
我々は、1) 時間の近い画像と 2) 同時発生する画像と発話の表現を同時に調整するものとして幼児の学習をモデル化することを提案します。
実際の介護者の統計と一致する統計を持つ発話が、カテゴリ認識の向上をサポートする表現を生み出すことを示します。
私たちの分析により、オブジェクト関連の命名頻度のわずかな増減が、学習された表現に大きな影響を与える可能性があることが明らかになりました。
これは、視覚と言語の効率的な調整に必要な、発話内のオブジェクト名への注意に影響します。
全体として、私たちの結果は、養育者の名前の発話が幼児の視覚表現を改善できるという仮説を裏付けています。

要約(オリジナル)

Infants’ ability to recognize and categorize objects develops gradually. The second year of life is marked by both the emergence of more semantic visual representations and a better understanding of word meaning. This suggests that language input may play an important role in shaping visual representations. However, even in suitable contexts for word learning like dyadic play sessions, caregivers utterances are sparse and ambiguous, often referring to objects that are different from the one to which the child attends. Here, we systematically investigate to what extent caregivers’ utterances can nevertheless enhance visual representations. For this we propose a computational model of visual representation learning during dyadic play. We introduce a synthetic dataset of ego-centric images perceived by a toddler-agent that moves and rotates toy objects in different parts of its home environment while hearing caregivers’ utterances, modeled as captions. We propose to model toddlers’ learning as simultaneously aligning representations for 1) close-in-time images and 2) co-occurring images and utterances. We show that utterances with statistics matching those of real caregivers give rise to representations supporting improved category recognition. Our analysis reveals that a small decrease/increase in object-relevant naming frequencies can drastically impact the learned representations. This affects the attention on object names within an utterance, which is required for efficient visuo-linguistic alignment. Overall, our results support the hypothesis that caregivers’ naming utterances can improve toddlers’ visual representations.

arxiv情報

著者 Timothy Schaumlöffel,Arthur Aubret,Gemma Roig,Jochen Triesch
発行日 2024-01-17 09:43:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク