Highly Efficient Real-Time Streaming and Fully On-Device Speaker Diarization with Multi-Stage Clustering

要約

話者ダイアライゼーションにおける最近の研究の進歩は、主にダイアライゼーション結果の品質の向上に焦点を当てていますが、ダイアライゼーション システムの効率の向上にも関心が高まっています。
この論文では、異なる長さの入力に対して異なるクラスタリング アルゴリズムを使用する多段階クラスタリング戦略が、オンデバイス話者ダイアライゼーション アプリケーションの多面的な課題に対処できることを実証します。
具体的には、フォールバック クラスタラーを使用して短い形式の入力を処理します。
メイン クラスタラーは中程度の長さの入力を処理するために使用されます。
また、プリクラスタラーは、長い形式の入力がメイン クラスタラーによって処理される前に圧縮するために使用されます。
メイン クラスタラーとプレクラスタラーはどちらも、さまざまなリソース制約を持つデバイスに適応するために、計算量の上限を設定して構成できます。
この多段階クラスタリング戦略は、CPU、メモリ、バッテリーの予算が厳しいストリーミング オンデバイス スピーカー ダイアライゼーション システムにとって重要です。

要約(オリジナル)

While recent research advances in speaker diarization mostly focus on improving the quality of diarization results, there is also an increasing interest in improving the efficiency of diarization systems. In this paper, we demonstrate that a multi-stage clustering strategy that uses different clustering algorithms for input of different lengths can address multi-faceted challenges of on-device speaker diarization applications. Specifically, a fallback clusterer is used to handle short-form inputs; a main clusterer is used to handle medium-length inputs; and a pre-clusterer is used to compress long-form inputs before they are processed by the main clusterer. Both the main clusterer and the pre-clusterer can be configured with an upper bound of the computational complexity to adapt to devices with different resource constraints. This multi-stage clustering strategy is critical for streaming on-device speaker diarization systems, where the budgets of CPU, memory and battery are tight.

arxiv情報

著者 Quan Wang,Yiling Huang,Han Lu,Guanlong Zhao,Ignacio Lopez Moreno
発行日 2024-01-08 17:05:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク