要約
話者ダイアライゼーションは、自動音声認識 (ASR) ツールを使用して書き起こされた会話を解釈するために必要です。
ダイアライゼーション方法は大幅に進歩しましたが、ダイアライゼーションの精度には依然として課題が残っています。
ここでは、後処理ステップとしてダイアライゼーション補正のための大規模言語モデル (LLM) の使用を調査します。
LLM は、文字起こしされた会話の大規模なデータセットであるフィッシャー コーパスを使用して微調整されました。
ホールドアウト データセットにおけるダイアライゼーションの精度を向上させるモデルの能力が測定されました。
微調整された LLM により、ダイアライゼーションの精度が大幅に向上することが報告されています。
ただし、モデルのパフォーマンスは、微調整に使用されるトランスクリプトと同じ ASR ツールを使用して生成されたトランスクリプトに制限され、一般化可能性が制限されます。
この制約に対処するために、3 つの別々のモデルの重みを組み合わせてアンサンブル モデルが開発され、それぞれが異なる ASR ツールからのトランスクリプトを使用して微調整されました。
アンサンブル モデルは、ASR 固有の各モデルよりも全体的なパフォーマンスが優れていることを示しており、一般化可能で ASR に依存しないアプローチが達成可能である可能性があることを示唆しています。
私たちは、サードパーティのアプリケーションで使用できるように、公開 API を通じてこれらのモデルにアクセスできるようにしたいと考えています。
要約(オリジナル)
Speaker diarization is necessary for interpreting conversations transcribed using automated speech recognition (ASR) tools. Despite significant developments in diarization methods, diarization accuracy remains an issue. Here, we investigate the use of large language models (LLMs) for diarization correction as a post-processing step. LLMs were fine-tuned using the Fisher corpus, a large dataset of transcribed conversations. The ability of the models to improve diarization accuracy in a holdout dataset was measured. We report that fine-tuned LLMs can markedly improve diarization accuracy. However, model performance is constrained to transcripts produced using the same ASR tool as the transcripts used for fine-tuning, limiting generalizability. To address this constraint, an ensemble model was developed by combining weights from three separate models, each fine-tuned using transcripts from a different ASR tool. The ensemble model demonstrated better overall performance than each of the ASR-specific models, suggesting that a generalizable and ASR-agnostic approach may be achievable. We hope to make these models accessible through public-facing APIs for use by third-party applications.
arxiv情報
著者 | Georgios Efstathiadis,Vijay Yadav,Anzar Abbas |
発行日 | 2024-06-07 13:33:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google