要約
自己教師付き音声表現は、下流の音声技術に多大な利益をもたらしますが、それを有用にする特性はまだ十分に理解されていません。
表現空間のジオメトリに関連する 2 つの候補プロパティは、下流のタスクとよく相関すると仮説が立てられています: (1) 話者の重心と電話の重心によって広がる部分空間間の直交性の程度、および (2) 空間の等方性。
つまり、すべての次元がどの程度効果的に利用されているかということです。
それらを研究するために、両方の特性を評価するために使用できる新しい尺度である累積残差分散 (CRV) を導入します。
話者と電話 ID の線形分類器を使用して、6 つの異なる自己教師ありモデルと 2 つの未訓練ベースラインの表現を調査し、直交性または等方性のいずれかが線形調査精度と相関するかどうかを調べます。
等方性に関する結果はより微妙ですが、両方の測定値が音声プローブの精度と相関していることがわかりました。
要約(オリジナル)
Self-supervised speech representations can hugely benefit downstream speech technologies, yet the properties that make them useful are still poorly understood. Two candidate properties related to the geometry of the representation space have been hypothesized to correlate well with downstream tasks: (1) the degree of orthogonality between the subspaces spanned by the speaker centroids and phone centroids, and (2) the isotropy of the space, i.e., the degree to which all dimensions are effectively utilized. To study them, we introduce a new measure, Cumulative Residual Variance (CRV), which can be used to assess both properties. Using linear classifiers for speaker and phone ID to probe the representations of six different self-supervised models and two untrained baselines, we ask whether either orthogonality or isotropy correlate with linear probing accuracy. We find that both measures correlate with phonetic probing accuracy, though our results on isotropy are more nuanced.
arxiv情報
著者 | Mukhtar Mohamed,Oli Danyi Liu,Hao Tang,Sharon Goldwater |
発行日 | 2024-06-13 14:57:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google