CiwaGAN: Articulatory information exchange

要約

人間は調音器官を制御することで情報を音に符号化し、聴覚装置を使用して音から情報を解読します。
この論文では、教師なし調音モデリングと聴覚モダリティを介した情報交換の教師なしモデルを組み合わせた人間の音声言語習得モデルである CiwaGAN を紹介します。
先行研究には教師なし調音モデリングと情報交換が別々に含まれていましたが、私たちのモデルは 2 つのコンポーネントを組み合わせた初めてのモデルです。
この論文では、より解釈可能な内部表現を備えた改良された調音モデルも提案しています。
提案された CiwaGAN モデルは、深層学習を使用した人間の音声言語習得の最も現実的な近似です。
したがって、人間の発話行為の認知的にもっともらしいシミュレーションに役立ちます。

要約(オリジナル)

Humans encode information into sounds by controlling articulators and decode information from sounds using the auditory apparatus. This paper introduces CiwaGAN, a model of human spoken language acquisition that combines unsupervised articulatory modeling with an unsupervised model of information exchange through the auditory modality. While prior research includes unsupervised articulatory modeling and information exchange separately, our model is the first to combine the two components. The paper also proposes an improved articulatory model with more interpretable internal representations. The proposed CiwaGAN model is the most realistic approximation of human spoken language acquisition using deep learning. As such, it is useful for cognitively plausible simulations of the human speech act.

arxiv情報

著者 Gašper Beguš,Thomas Lu,Alan Zhou,Peter Wu,Gopala K. Anumanchipalli
発行日 2023-09-14 17:10:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS パーマリンク