Self-supervised Predictive Coding Models Encode Speaker and Phonetic Information in Orthogonal Subspaces

要約

自己教師あり音声表現は話者情報と音声情報の両方をエンコードすることが知られていますが、それらが高次元空間にどのように分布するかはほとんど解明されていません。
我々は、それらが直交部分空間でエンコードされており、その特性が単純なもつれの解除に適していると仮説を立てます。
2 つの予測コーディング モデルの表現に主成分分析を適用すると、話者と音声の差異を捉える 2 つの部分空間が特定され、それらがほぼ直交していることが確認されます。
この性質に基づいて、私たちは、書き起こしを必要とせずに話者情報を符号化する部分空間を崩壊させる新しい話者正規化手法を提案します。
精査実験により、私たちの方法が話者情報を効果的に除去し、電話識別タスクにおいて以前のベースラインを上回るパフォーマンスを示したことが示されました。
さらに、このアプローチは一般化されており、見えない話者の情報を削除するために使用できます。

要約(オリジナル)

Self-supervised speech representations are known to encode both speaker and phonetic information, but how they are distributed in the high-dimensional space remains largely unexplored. We hypothesize that they are encoded in orthogonal subspaces, a property that lends itself to simple disentanglement. Applying principal component analysis to representations of two predictive coding models, we identify two subspaces that capture speaker and phonetic variances, and confirm that they are nearly orthogonal. Based on this property, we propose a new speaker normalization method which collapses the subspace that encodes speaker information, without requiring transcriptions. Probing experiments show that our method effectively eliminates speaker information and outperforms a previous baseline in phone discrimination tasks. Moreover, the approach generalizes and can be used to remove information of unseen speakers.

arxiv情報

著者 Oli Liu,Hao Tang,Sharon Goldwater
発行日 2023-06-06 10:49:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD パーマリンク