Towards Matching Phones and Speech Representations

要約

電話インスタンスから電話タイプを学習することは、まだオープンなままではあるものの、長年にわたる問題でした。
この研究では、自己教師あり学習のコンテキストでこの問題を再検討し、クラスターの重心を音の埋め込みに一致させる問題として取り上げます。
私たちは、マッチングを可能にする 2 つの重要な特性、すなわち、自己教師あり表現のクラスター重心が電話インスタンスの変動性を低減し、電話間の関係を尊重するかどうかを研究します。
次に、マッチング結果を使用して擬似ラベルを生成し、自己教師あり表現を改善するための新しい損失関数を導入します。
私たちの実験は、マッチング結果が電話間の関係を捉えていることを示しています。
APC や CPC などの通常の自己監視損失と組み合わせて新しい損失関数をトレーニングすると、ダウンストリームの電話機の分類が大幅に改善されます。

要約(オリジナル)

Learning phone types from phone instances has been a long-standing problem, while still being open. In this work, we revisit this problem in the context of self-supervised learning, and pose it as the problem of matching cluster centroids to phone embeddings. We study two key properties that enable matching, namely, whether cluster centroids of self-supervised representations reduce the variability of phone instances and respect the relationship among phones. We then use the matching result to produce pseudo-labels and introduce a new loss function for improving self-supervised representations. Our experiments show that the matching result captures the relationship among phones. Training the new loss function jointly with the regular self-supervised losses, such as APC and CPC, significantly improves the downstream phone classification.

arxiv情報

著者 Gene-Ping Yang,Hao Tang
発行日 2023-10-26 16:47:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク