Unsupervised Speech Segmentation: A General Approach Using Speech Language Models


この論文では、音声セグメンテーションの教師なしアプローチを紹介します。これは、以前に研究されたアプローチ、たとえば話者ダイアライゼーションに基づいて構築され、同時に音響意味論的区別の包括的なセットに適用可能であり、一般的な教師なし音声セグメンテーション アプローチへの道を開きます。
ほとんどの音声セグメント化タスクは、感情ダイアライゼーションなどの 1 つのスタイル変更のみを処理しますが、私たちのアプローチは複数の音響意味論的なスタイル変更を処理しようとします。
音声言語モデル (SLM) の最近の進歩を活用して、与えられた音声発話をセグメント化する単純な教師なし手法を提案します。
コードは https://github.com/avishaiElmakies/unsupervised_speech_segmentation_using_slm で入手できます。


In this paper, we introduce an unsupervised approach for Speech Segmentation, which builds on previously researched approaches, e.g., Speaker Diarization, while being applicable to an inclusive set of acoustic-semantic distinctions, paving a path towards a general Unsupervised Speech Segmentation approach. Unlike traditional speech and audio segmentation, which mainly focuses on spectral changes in the input signal, e.g., phone segmentation, our approach tries to segment the spoken utterance into chunks with differing acoustic-semantic styles, focusing on acoustic-semantic information that does not translate well into text, e.g., emotion or speaker. While most Speech Segmentation tasks only handle one style change, e.g., emotion diarization, our approach tries to handle multiple acoustic-semantic style changes. Leveraging recent advances in Speech Language Models (SLMs), we propose a simple unsupervised method to segment a given speech utterance. We empirically demonstrate the effectiveness of the proposed approach by considering several setups. Results suggest that the proposed method is superior to the evaluated baselines on boundary detection, segment purity, and over-segmentation. Code is available at https://github.com/avishaiElmakies/unsupervised_speech_segmentation_using_slm.


著者 Avishai Elmakies,Omri Abend,Yossi Adi
発行日 2025-01-07 11:32:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS パーマリンク