Hallucinations in Neural Automatic Speech Recognition: Identifying Errors and Hallucinatory Models

要約

幻覚は、ディープ・ニューラル・ネットワークが生み出す出力エラーの一種である。これは自然言語処理では研究されているが、自動音声認識ではこれまで研究されていなかった。ここでは、ASRにおける幻覚とは、モデルによって生成された、元の発話とは意味的に無関係で、なおかつ流暢で首尾一貫した書き取りと定義する。幻覚がモデルの自然言語出力と類似している場合、欺瞞の危険性が生じ、システムの信頼性に影響を与える。我々は、単語誤り率などの一般的に使用される測定基準では、幻覚モデルと非幻覚モデルを区別できないことを示す。この問題に対処するため、自動音声認識(ASR)モデルがテスト時に幻覚を起こしやすいかどうかを評価する摂動ベースの手法を提案する。この手法により、ベースラインの単語誤り率が同程度である幻覚モデルと非幻覚モデルを区別できることを示す。さらに、ASRエラーの種類とデータセットノイズの種類との関係を調べ、どのような種類のノイズが幻覚的出力を生み出す可能性が最も高いかを決定する。そして、グランドトゥルースとの意味的関連性と流暢さを分析することにより、幻覚を識別するフレームワークを考案した。最後に、発話にランダムなノイズを注入して幻覚を誘発する方法を発見する。

要約(オリジナル)

Hallucinations are a type of output error produced by deep neural networks. While this has been studied in natural language processing, they have not been researched previously in automatic speech recognition. Here, we define hallucinations in ASR as transcriptions generated by a model that are semantically unrelated to the source utterance, yet still fluent and coherent. The similarity of hallucinations to probable natural language outputs of the model creates a danger of deception and impacts the credibility of the system. We show that commonly used metrics, such as word error rates, cannot differentiate between hallucinatory and non-hallucinatory models. To address this, we propose a perturbation-based method for assessing the susceptibility of an automatic speech recognition (ASR) model to hallucination at test time, which does not require access to the training dataset. We demonstrate that this method helps to distinguish between hallucinatory and non-hallucinatory models that have similar baseline word error rates. We further explore the relationship between the types of ASR errors and the types of dataset noise to determine what types of noise are most likely to create hallucinatory outputs. We devise a framework for identifying hallucinations by analysing their semantic connection with the ground truth and their fluency. Finally, we discover how to induce hallucinations with a random noise injection to the utterance.

arxiv情報

著者 Rita Frieske,Bertram E. Shi
発行日 2024-01-03 06:56:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク