Self-Supervised Models of Speech Infer Universal Articulatory Kinematics

要約

自己教師あり学習 (SSL) ベースの音声モデルは、さまざまな下流タスクで顕著なパフォーマンスを示しています。
これらの最先端のモデルはブラックボックスのままですが、最近の多くの研究では、HuBERT のようなモデルを「調査」し、モデルの内部表現を音声のさまざまな側面と関連付けるようになりました。
この論文では、SSL モデルの基本的な特性として「調音運動学の推論」、つまり音響を音声信号の基礎となる因果的調音力学に変換するこれらのモデルの機能を示します。
また、この抽象化は、モデルのトレーニングに使用されるデータの言語全体で主に重複しており、同様の音韻体系を持つ言語が優先されることも示します。
さらに、単純なアフィン変換を使用すると、音響-調音反転 (AAI) が話者間、さらには性別、言語、方言を超えて伝達可能であることを示し、この特性の一般化可能性を示します。
これらの結果を総合すると、優れたパフォーマンスに不可欠な SSL モデルの内部に新たな光が当てられ、解釈可能で音声科学に基づいた、言語に依存しない音声工学のユニバーサル モデルへの新たな道が開かれます。

要約(オリジナル)

Self-Supervised Learning (SSL) based models of speech have shown remarkable performance on a range of downstream tasks. These state-of-the-art models have remained blackboxes, but many recent studies have begun ‘probing’ models like HuBERT, to correlate their internal representations to different aspects of speech. In this paper, we show ‘inference of articulatory kinematics’ as fundamental property of SSL models, i.e., the ability of these models to transform acoustics into the causal articulatory dynamics underlying the speech signal. We also show that this abstraction is largely overlapping across the language of the data used to train the model, with preference to the language with similar phonological system. Furthermore, we show that with simple affine transformations, Acoustic-to-Articulatory inversion (AAI) is transferrable across speakers, even across genders, languages, and dialects, showing the generalizability of this property. Together, these results shed new light on the internals of SSL models that are critical to their superior performance, and open up new avenues into language-agnostic universal models for speech engineering, that are interpretable and grounded in speech science.

arxiv情報

著者 Cheol Jun Cho,Abdelrahman Mohamed,Alan W Black,Gopala K. Anumanchipalli
発行日 2024-01-16 08:09:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク