Unsupervised Speaker Diarization in Distributed IoT Networks Using Federated Learning

要約

このペーパーでは、ネットワーク化された IoT スタイルのオーディオ デバイス向けに、計算効率が高く分散されたスピーカー ダイアライゼーション フレームワークを紹介します。
この研究では、トレーニング用の大規模な音声データベースを必要とせずに、会話の参加者を識別できるフェデレーション ラーニング モデルを提案しています。
話者埋め込みのコサイン類似性に依存するフェデレーテッド ラーニング モデルに対して、教師なしオンライン更新メカニズムが提案されています。
さらに、提案されたダイアライゼーションシステムは、話者変更検出の問題を解決します。
Hotelling の t 二乗統計とベイズ情報量基準を使用した教師なしセグメンテーション手法。
この新しいアプローチでは、話者の変化の検出が、検出された擬似沈黙を中心に偏り、これにより、検出漏れと誤検出率の間のトレードオフの重大度が軽減されます。
さらに、話者のフレームごとの識別による計算オーバーヘッドが削減されます。
音声セグメントの教師なしクラスタリング。
結果は、非 IID 音声データの存在下で提案されたトレーニング方法の有効性を示しています。
また、計算オーバーヘッドを削減しながら、セグメンテーション段階での誤検出や見逃し検出の削減においても大幅な改善が見られます。
精度の向上と計算コストの削減により、このメカニズムは分散型 IoT オーディオ ネットワーク全体でのリアルタイムの話者ダイアライゼーションに適しています。

要約(オリジナル)

This paper presents a computationally efficient and distributed speaker diarization framework for networked IoT-style audio devices. The work proposes a Federated Learning model which can identify the participants in a conversation without the requirement of a large audio database for training. An unsupervised online update mechanism is proposed for the Federated Learning model which depends on cosine similarity of speaker embeddings. Moreover, the proposed diarization system solves the problem of speaker change detection via. unsupervised segmentation techniques using Hotelling’s t-squared Statistic and Bayesian Information Criterion. In this new approach, speaker change detection is biased around detected quasi-silences, which reduces the severity of the trade-off between the missed detection and false detection rates. Additionally, the computational overhead due to frame-by-frame identification of speakers is reduced via. unsupervised clustering of speech segments. The results demonstrate the effectiveness of the proposed training method in the presence of non-IID speech data. It also shows a considerable improvement in the reduction of false and missed detection at the segmentation stage, while reducing the computational overhead. Improved accuracy and reduced computational cost makes the mechanism suitable for real-time speaker diarization across a distributed IoT audio network.

arxiv情報

著者 Amit Kumar Bhuyan,Hrishikesh Dutta,Subir Biswas
発行日 2024-11-29 17:36:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク