Analysing Discrete Self Supervised Speech Representation for Spoken Language Modeling

要約

この作業は、Generative Spoken Language Modeling (GSLM) の目を通して、個別の自己教師あり音声表現を深く分析します。
このような分析の結果に続いて、GSLM の個別ユニットの実用的な改善を提案します。
まず、解釈、視覚化、再統合の 3 つの軸で分析することにより、これらのユニットの理解を開始します。
私たちの分析では、音声単位と音素および音素ファミリーとの間に高い相関関係があることがわかりましたが、話者または性別との相関関係は弱いことがわかりました。
さらに、抽出されたユニットに冗長性が見つかり、その理由の 1 つはユニットのコンテキストである可能性があると主張しています。
この分析に続いて、ユニットの冗長性を測定するための新しい教師なしメトリックを提案します。
最後に、このメトリックを使用して、ユニット クラスタリングのロバスト性を改善し、ABX などのゼロ リソース音声メトリックを考慮して大幅な改善を示す新しい方法を開発します。
コードと分析ツールは、次のリンクから入手できます。

要約(オリジナル)

This work profoundly analyzes discrete self-supervised speech representations through the eyes of Generative Spoken Language Modeling (GSLM). Following the findings of such an analysis, we propose practical improvements to the discrete unit for the GSLM. First, we start comprehending these units by analyzing them in three axes: interpretation, visualization, and resynthesis. Our analysis finds a high correlation between the speech units to phonemes and phoneme families, while their correlation with speaker or gender is weaker. Additionally, we found redundancies in the extracted units and claim that one reason may be the units’ context. Following this analysis, we propose a new, unsupervised metric to measure unit redundancies. Finally, we use this metric to develop new methods that improve the robustness of units clustering and show significant improvement considering zero-resource speech metrics such as ABX. Code and analysis tools are available under the following link.

arxiv情報

著者 Amitay Sicherman,Yossi Adi
発行日 2023-02-27 11:18:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク