How Generative Spoken Language Modeling Encodes Noisy Speech: Investigation from Phonetics to Syntactics

要約

生成音声言語モデリング (GSLM) の音声モデリングの可能性を調べます。GSLM では、音声分析と合成に音素ではなくデータから得られた学習記号を使用します。
GSLM はテキストのない音声言語処理を容易にするため、その有効性を探ることは、音声言語処理における新しいパラダイムへの道を開くために重要です。
この論文では、話し言葉および音声レベルでの GSLM のエンコードおよびデコードの有効性に関する調査結果を示します。
音声再合成実験を通じて、再合成エラーは音韻論から構文に至るレベルで発生し、GSLM は自然ではあるが内容が変更された音声を頻繁に再合成することを明らかにしました。

要約(オリジナル)

We examine the speech modeling potential of generative spoken language modeling (GSLM), which involves using learned symbols derived from data rather than phonemes for speech analysis and synthesis. Since GSLM facilitates textless spoken language processing, exploring its effectiveness is critical for paving the way for novel paradigms in spoken-language processing. This paper presents the findings of GSLM’s encoding and decoding effectiveness at the spoken-language and speech levels. Through speech resynthesis experiments, we revealed that resynthesis errors occur at the levels ranging from phonology to syntactics and GSLM frequently resynthesizes natural but content-altered speech.

arxiv情報

著者 Joonyong Park,Shinnosuke Takamichi,Tomohiko Nakamura,Kentaro Seki,Detai Xin,Hiroshi Saruwatari
発行日 2023-06-01 14:07:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, eess.AS パーマリンク