Analyzing the relationships between pretraining language, phonetic, tonal, and speaker information in self-supervised speech models

要約

自己教師の音声モデルの分析は、さまざまな種類の情報をどこでどのように表現するかを明らかにし始めています。
ただし、ほとんどすべての分析は英語に焦点を当てています。
ここでは、4つの異なる言語でトレーニングされたWAV2VEC2モデルが、言語が一致していないスピーチと非マッチングされていないスピーチの両方をエンコードする方法を調べます。
プロービング分類器と幾何学的分析を使用して、携帯電話、語彙トーン、およびスピーカー情報の表現方法を調べます。
すべての事前トレーニングおよびテスト言語について、携帯電話、トーン、スピーカーをエンコードするサブスペースは主に直交しており、プロービング精度のレイヤーワイズパターンは同様であり、後のレイヤーの一致した言語の電話とトーン(スピーカーではない)プローブに比較的小さな利点があることを示しています。
我々の調査結果は、WAV2VEC2によって学んだ表現の構造は、事前脱出中に使用される音声材料とほとんど依存していることを示唆しています。

要約(オリジナル)

Analyses of self-supervised speech models have begun to reveal where and how they represent different types of information. However, almost all analyses have focused on English. Here, we examine how wav2vec2 models trained on four different languages encode both language-matched and non-matched speech. We use probing classifiers and geometric analyses to examine how phones, lexical tones, and speaker information are represented. We show that for all pretraining and test languages, the subspaces encoding phones, tones, and speakers are largely orthogonal, and that layerwise patterns of probing accuracy are similar, with a relatively small advantage for matched-language phone and tone (but not speaker) probes in the later layers. Our findings suggest that the structure of representations learned by wav2vec2 is largely independent of the speech material used during pretraining.

arxiv情報

著者 Michele Gubian,Ioana Krehan,Oli Liu,James Kirby,Sharon Goldwater
発行日 2025-06-12 16:16:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク