Factual Consistency Oriented Speech Recognition

要約

この論文では、自動音声認識 (ASR) の新しい最適化フレームワークを提示し、ASR モデルによって生成される幻覚を減らすことを目的としています。
提案されたフレームワークは、ASR モデルを最適化して、ASR 仮説とグラウンド トゥルース トランスクリプションの間で予想される事実の一貫性スコアを最大化します。事実の一貫性スコアは、個別にトレーニングされた推定器によって計算されます。
AMI ミーティング コーパスと VoxPopuli コーパスを使用した実験結果は、提案されたフレームワークでトレーニングされた ASR モデルが、クロス エントロピーでトレーニングされた ASR に近い単語エラー率を維持しながら、グラウンド トゥルース トランスクリプションとの一貫性スコアが大幅に高い ASR 仮説を​​生成することを示しています。
モデル。
さらに、提案されたフレームワークを使用して ASR モデルをトレーニングすると、大規模な言語モデルによって生成された会議の会話要約の事実の一貫性によって測定される音声要約の品質が向上することが示されています。

要約(オリジナル)

This paper presents a novel optimization framework for automatic speech recognition (ASR) with the aim of reducing hallucinations produced by an ASR model. The proposed framework optimizes the ASR model to maximize an expected factual consistency score between ASR hypotheses and ground-truth transcriptions, where the factual consistency score is computed by a separately trained estimator. Experimental results using the AMI meeting corpus and the VoxPopuli corpus show that the ASR model trained with the proposed framework generates ASR hypotheses that have significantly higher consistency scores with ground-truth transcriptions while maintaining the word error rates close to those of cross entropy-trained ASR models. Furthermore, it is shown that training the ASR models with the proposed framework improves the speech summarization quality as measured by the factual consistency of meeting conversation summaries generated by a large language model.

arxiv情報

著者 Naoyuki Kanda,Takuya Yoshioka,Yang Liu
発行日 2023-02-24 00:01:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク