要約
知覚-生成ループを含む音声学習の完全な計算モデルに向けた最初のステップとして、擬似運動コマンドと調音軌道の間の順方向マッピングを調査します。
それぞれ生成音韻論と調音音韻論に基づく 2 つの音韻特徴セットを使用して、音声ターゲット シーケンスをエンコードします。
これらの特徴空間で滑らかな軌道を生成するために、さまざまな補間技術が比較され、関節調合効果を捕捉するためのターゲット値とタイミングが最適化される可能性があります。
我々は、生成された軌道の線形投影と、電磁調音記録法 (EMA) 記録のマルチスピーカー データセットから導出された調音データとの間のピアソン相関を報告します。
生成音韻論および線形補間技術に基づく拡張特徴セットを使用すると、0.67 の相関が得られます。
私たちは、生物学的運動の力学の理解に対する結果の意味について議論します。
要約(オリジナル)
As a first step towards a complete computational model of speech learning involving perception-production loops, we investigate the forward mapping between pseudo-motor commands and articulatory trajectories. Two phonological feature sets, based respectively on generative and articulatory phonology, are used to encode a phonetic target sequence. Different interpolation techniques are compared to generate smooth trajectories in these feature spaces, with a potential optimisation of the target value and timing to capture co-articulation effects. We report the Pearson correlation between a linear projection of the generated trajectories and articulatory data derived from a multi-speaker dataset of electromagnetic articulography (EMA) recordings. A correlation of 0.67 is obtained with an extended feature set based on generative phonology and a linear interpolation technique. We discuss the implications of our results for our understanding of the dynamics of biological motion.
arxiv情報
著者 | Angelo Ortiz Tandazo,Thomas Schatz,Thomas Hueber,Emmanuel Dupoux |
発行日 | 2024-08-08 10:51:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google