End-to-End Supervised Hierarchical Graph Clustering for Speaker Diarization

要約

話者ダイアライゼーションは、話者のアイデンティティに基づいてオーディオ録音をセグメント化するタスクであり、いくつかの下流アプリケーションにとって重要な音声前処理ステップを構成します。ダイアライゼーションへの従来のアプローチには、埋め込み抽出とクラスタリングという複数のステップが含まれており、これらのステップは多くの場合、個別の方法で最適化されます。

エンドツーエンドのダイアライゼーション システムは、タスクに対して単一のモデルを学習しようとしますが、多くの場合、トレーニングが面倒で、大規模な教師付きデータセットが必要になります。
この論文では、エンドツーエンド教師あり階層クラスタリング (E-SHARC) と呼ばれる、グラフ ニューラル ネットワーク (GNN) に基づくエンドツーエンド教師あり階層クラスタリング アルゴリズムを提案します。
埋め込みエクストラクターは、事前トレーニングされた x ベクトル モデルを使用して初期化されますが、GNN モデルは、事前トレーニングされたモデルからの x ベクトル埋め込みを使用して最初にトレーニングされます。
最後に、E-SHARC モデルはフロントエンドの mel-filterbank 機能を入力として使用し、エンベディング エクストラクターと GNN クラスタリング モジュールを共同で最適化し、表現学習、メトリック学習、およびエンドツーエンドの最適化によるクラスタリングを実行します。
さらに、外部オーバーラップ検出器からの追加入力により、E-SHARC アプローチは、オーバーラップする音声領域内の話者を予測できます。
AMI、Voxconverse、DISPLACE などのベンチマーク データセットに対する実験的評価は、提案された E-SHARC フレームワークがグラフ ベースのクラスタリング手法を使用して競合的なダイアライゼーション結果を提供することを示しています。

要約(オリジナル)

Speaker diarization, the task of segmenting an audio recording based on speaker identity, constitutes an important speech pre-processing step for several downstream applications.The conventional approach to diarization involves multiple steps of embedding extraction and clustering, which are often optimized in an isolated fashion. While end-to-end diarization systems attempt to learn a single model for the task, they are often cumbersome to train and require large supervised datasets. In this paper, we propose an end-to-end supervised hierarchical clustering algorithm based on graph neural networks (GNN), called End-to-end Supervised HierARchical Clustering (E-SHARC). The embedding extractor is initialized using a pre-trained x-vector model while the GNN model is trained initially using the x-vector embeddings from the pre-trained model. Finally, the E-SHARC model uses the front-end mel-filterbank features as input and jointly optimizes the embedding extractor and the GNN clustering module, performing representation learning, metric learning, and clustering with end-to-end optimization. Further, with additional inputs from an external overlap detector, the E-SHARC approach is capable of predicting the speakers in the overlapping speech regions. The experimental evaluation on benchmark datasets like AMI, Voxconverse and DISPLACE, illustrates that the proposed E-SHARC framework provides competitive diarization results using graph based clustering methods.

arxiv情報

著者 Prachi Singh,Sriram Ganapathy
発行日 2024-12-02 17:38:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク