Age-Dependent Analysis and Stochastic Generation of Child-Directed Speech

要約

子ども向けスピーチ (CDS) は、大人が幼い子どもに話しかけるときに使用する特定のタイプのスピーチです。
その特性は、対象となる子供の年齢などの言語外の要因の関数としても変化します。
大量の代表的で多様な CDS へのアクセスは、質と量の点で現実的な入力による幼児言語習得の制御された計算モデリング実験を可能にするため、児童言語研究に役立ちます。
この研究では、CHILDES データベースの北米英語コーパスから得られた、CDS 転写産物とレシピエントの子供の年齢に基づいてトレーニングされた言語モデル (LM) を使用して、CDS の年齢依存の言語特性をモデル化するアプローチについて説明します。
作成された LM は、年齢に応じた方法で合成 CDS 転写物を確率的に生成するために使用され、それによって元のデータセットのサイズを超えて拡張できます。
生成された CDS の特性を、さまざまな年齢の子供たちに向けた実際の音声と比較し、有効語彙サイズのわずかな違いを除いて、LM が CDS の年齢依存の変化をなんとか捉えていることを示します。
副産物として、CHILDES における CDS の年齢依存の言語特性の体系的な特徴付けも提供し、CDS の測定されたすべての側面が子供の年齢とともにどのように変化するかを示します。

要約(オリジナル)

Child-directed speech (CDS) is a particular type of speech that adults use when addressing young children. Its properties also change as a function of extralinguistic factors, such as age of the child being addressed. Access to large amounts of representative and varied CDS would be useful for child language research, as this would enable controlled computational modeling experiments of infant language acquisition with realistic input in terms of quality and quantity. In this study, we describe an approach to model age-dependent linguistic properties of CDS using a language model (LM) trained on CDS transcripts and ages of the recipient children, as obtained from North American English corpora of the CHILDES database. The created LM can then be used to stochastically generate synthetic CDS transcripts in an age-appropriate manner, thereby scaling beyond the original datasets in size. We compare characteristics of the generated CDS against the real speech addressed at children of different ages, showing that the LM manages to capture age-dependent changes in CDS, except for a slight difference in the effective vocabulary size. As a side product, we also provide a systematic characterization of age-dependent linguistic properties of CDS in CHILDES, illustrating how all measured aspects of the CDS change with children’s age.

arxiv情報

著者 Okko Räsänen,Daniil Kocharov
発行日 2024-05-13 12:35:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク