要約
エンドツーエンドの会議の文字起こしに関するこれまでの研究はモデル アーキテクチャに焦点を当てており、主にシミュレーションされた会議データに基づいて評価されてきました。
我々は、AMI 会議コーパスなどの現実のシナリオにおける話者属性 ASR (SA-ASR) システムの使用を最適化し、音声セグメントの話者割り当てを改善することを目的とした新しい研究を紹介します。
まず、音声アクティビティ検出 (VAD)、話者ダイアライゼーション (SD)、および SA-ASR を含む実際のアプリケーションに合わせたパイプラインを提案します。
次に、テスト中に VAD セグメントにも適用されることを考慮して、SA-ASR モデルを微調整するために VAD 出力セグメントを使用することを推奨し、これによりスピーカー誤り率 (SER) が最大 28% 相対的に減少することを示しています。
。
最後に、SA-ASR システムによって入力として使用されるスピーカー埋め込みテンプレートの抽出を強化する戦略を検討します。
注釈付き話者セグメントではなく SD 出力からそれらを抽出すると、相対的な SER が最大 20% 削減されることを示します。
要約(オリジナル)
Past studies on end-to-end meeting transcription have focused on model architecture and have mostly been evaluated on simulated meeting data. We present a novel study aiming to optimize the use of a Speaker-Attributed ASR (SA-ASR) system in real-life scenarios, such as the AMI meeting corpus, for improved speaker assignment of speech segments. First, we propose a pipeline tailored to real-life applications involving Voice Activity Detection (VAD), Speaker Diarization (SD), and SA-ASR. Second, we advocate using VAD output segments to fine-tune the SA-ASR model, considering that it is also applied to VAD segments during test, and show that this results in a relative reduction of Speaker Error Rate (SER) up to 28%. Finally, we explore strategies to enhance the extraction of the speaker embedding templates used as inputs by the SA-ASR system. We show that extracting them from SD output rather than annotated speaker segments results in a relative SER reduction up to 20%.
arxiv情報
著者 | Can Cui,Imran Ahamad Sheikh,Mostafa Sadeghi,Emmanuel Vincent |
発行日 | 2024-03-11 10:11:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google