Encoding of lexical tone in self-supervised models of spoken language

要約

解釈可能性の研究により、自己教師付き音声言語モデル(SLM)は、音響、音声学、音韻論、統語、意味レベルから話者の特徴に至るまで、人間の音声の様々な特徴を符号化することが示されている。音韻の表現に関する先行研究の大部分は、音素のような分節的な特徴に焦点を当てており、SLMにおける超分節的な音韻(トーンやストレスパターンなど)の符号化はまだ十分に理解されていない。音調は、世界の半数以上の言語に存在する上位区分の特徴である。本稿では、標準中国語とベトナム語をケーススタディとして、SLMの声調符号化能力を分析することを目的とする。SLMは、非音調言語のデータで学習した場合でも、かなりの程度まで語彙的な音調を符号化することを示す。さらに、SLMは、音調や子音知覚の研究において、ネイティブや非ネイティブの人間参加者と同様の振る舞いをするが、同じ発達の軌跡をたどらないことがわかった。

要約(オリジナル)

Interpretability research has shown that self-supervised Spoken Language Models (SLMs) encode a wide variety of features in human speech from the acoustic, phonetic, phonological, syntactic and semantic levels, to speaker characteristics. The bulk of prior research on representations of phonology has focused on segmental features such as phonemes; the encoding of suprasegmental phonology (such as tone and stress patterns) in SLMs is not yet well understood. Tone is a suprasegmental feature that is present in more than half of the world’s languages. This paper aims to analyze the tone encoding capabilities of SLMs, using Mandarin and Vietnamese as case studies. We show that SLMs encode lexical tone to a significant degree even when they are trained on data from non-tonal languages. We further find that SLMs behave similarly to native and non-native human participants in tone and consonant perception studies, but they do not follow the same developmental trajectory.

arxiv情報

著者 Gaofei Shen,Michaela Watkins,Afra Alishahi,Arianna Bisazza,Grzegorz Chrupała
発行日 2024-04-03 12:59:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, eess.AS パーマリンク