Improving Speaker Diarization using Semantic Information: Joint Pairwise Constraints Propagation

要約

話者ダイアライゼーションは、音声処理研究コミュニティ内でかなりの注目を集めています。
主流の話者ダイアライゼーションは、主に音響信号から抽出された話者の音声特性に依存しており、意味情報の可能性を見落とすことがよくあります。
音声信号が音声の内容を効率的に伝えることができるという事実を考慮すると、言語モデルを利用してこれらの意味論的手がかりを完全に活用することが私たちの関心です。
この研究では、クラスタリングベースの話者ダイアライゼーション システムで意味情報を効果的に活用する新しいアプローチを提案します。
まず、話者関連の意味情報を抽出し、これらの情報を利用してペアごとの制約を構築するための音声言語理解モジュールを導入します。
次に、これらの制約を話者ダイアライゼーション パイプラインに統合し、システム全体のパフォーマンスを向上させる新しいフレームワークを紹介します。
公開データセットに対して行われた広範な実験により、音響のみの話者ダイアライゼーション システムに対して、私たちが提案するアプローチが一貫して優れていることが実証されました。

要約(オリジナル)

Speaker diarization has gained considerable attention within speech processing research community. Mainstream speaker diarization rely primarily on speakers’ voice characteristics extracted from acoustic signals and often overlook the potential of semantic information. Considering the fact that speech signals can efficiently convey the content of a speech, it is of our interest to fully exploit these semantic cues utilizing language models. In this work we propose a novel approach to effectively leverage semantic information in clustering-based speaker diarization systems. Firstly, we introduce spoken language understanding modules to extract speaker-related semantic information and utilize these information to construct pairwise constraints. Secondly, we present a novel framework to integrate these constraints into the speaker diarization pipeline, enhancing the performance of the entire system. Extensive experiments conducted on the public dataset demonstrate the consistent superiority of our proposed approach over acoustic-only speaker diarization systems.

arxiv情報

著者 Luyao Cheng,Siqi Zheng,Qinglin Zhang,Hui Wang,Yafeng Chen,Qian Chen,Shiliang Zhang
発行日 2023-09-19 09:13:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク