DiarizationLM: Speaker Diarization Post-Processing with Large Language Models

要約

このペーパーでは、大規模言語モデル (LLM) を利用して話者ダイアライゼーション システムからの出力を後処理するフレームワークである DiarizationLM を紹介します。
提案されたフレームワークを使用すると、日記化されたトランスクリプトの読みやすさの向上や単語日記化エラー率 (WDER) の削減など、さまざまな目標を達成できます。
このフレームワークでは、自動音声認識 (ASR) および話者ダイアリゼーション システムの出力はコンパクトなテキスト形式として表され、オプションで微調整される LLM へのプロンプトに含まれます。
LLM の出力は、必要な強化を加えた洗練されたダイアライゼーション結果として使用できます。
このフレームワークは、後処理ステップとして、既存のコンポーネントを再トレーニングすることなく、既製の ASR および話者ダイアライゼーション システムに簡単に適用できます。
私たちの実験では、微調整された PaLM 2-S モデルが WDER を相対的に削減できることを示しています。
フィッシャー電話会話データセットでは 55.5%、相対値は 55.5% です。
Callhome 英語データセットでは 44.9%。

要約(オリジナル)

In this paper, we introduce DiarizationLM, a framework to leverage large language models (LLM) to post-process the outputs from a speaker diarization system. Various goals can be achieved with the proposed framework, such as improving the readability of the diarized transcript, or reducing the word diarization error rate (WDER). In this framework, the outputs of the automatic speech recognition (ASR) and speaker diarization systems are represented as a compact textual format, which is included in the prompt to an optionally finetuned LLM. The outputs of the LLM can be used as the refined diarization results with the desired enhancement. As a post-processing step, this framework can be easily applied to any off-the-shelf ASR and speaker diarization systems without retraining existing components. Our experiments show that a finetuned PaLM 2-S model can reduce the WDER by rel. 55.5% on the Fisher telephone conversation dataset, and rel. 44.9% on the Callhome English dataset.

arxiv情報

著者 Quan Wang,Yiling Huang,Guanlong Zhao,Evan Clark,Wei Xia,Hank Liao
発行日 2024-07-15 17:32:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク