Highly Efficient Real-Time Streaming and Fully On-Device Speaker Diarization with Multi-Stage Clustering

要約

話者ダイアライゼーションにおける最近の研究の進歩は、主にダイアライゼーション結果の品質の向上に焦点を当てていますが、ダイアライゼーション システムの効率の向上にも関心が高まっています。
このホワイト ペーパーでは、さまざまな長さの入力に対してさまざまなクラスタリング アルゴリズムを使用する多段階クラスタリング戦略が、オンデバイス スピーカー ダイアライゼーション アプリケーションの多面的な課題に対処できることを示します。
具体的には、短い形式の入力を処理するためにフォールバック クラスタラーが使用されます。
メイン クラスタラーは、中程度の長さの入力を処理するために使用されます。
また、プレクラスタラーは、メイン クラスタラーによって処理される前に長い形式の入力を圧縮するために使用されます。
メイン クラスタラーとプレ クラスタラーの両方を計算複雑性の上限で構成して、さまざまなリソース制約を持つデバイスに適応させることができます。
このマルチステージ クラスタリング戦略は、CPU、メモリ、およびバッテリの予算が限られているオンデバイス スピーカー ダイアライゼーション システムのストリーミングにとって重要です。

要約(オリジナル)

While recent research advances in speaker diarization mostly focus on improving the quality of diarization results, there is also an increasing interest in improving the efficiency of diarization systems. In this paper, we demonstrate that a multi-stage clustering strategy that uses different clustering algorithms for input of different lengths can address multi-faceted challenges of on-device speaker diarization applications. Specifically, a fallback clusterer is used to handle short-form inputs; a main clusterer is used to handle medium-length inputs; and a pre-clusterer is used to compress long-form inputs before they are processed by the main clusterer. Both the main clusterer and the pre-clusterer can be configured with an upper bound of the computational complexity to adapt to devices with different resource constraints. This multi-stage clustering strategy is critical for streaming on-device speaker diarization systems, where the budgets of CPU, memory and battery are tight.

arxiv情報

著者 Quan Wang,Yiling Huang,Han Lu,Guanlong Zhao,Ignacio Lopez Moreno
発行日 2023-03-20 13:57:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク