要約
自動音声認識(ASR)の進歩にもかかわらず、転写エラーは持続し、手動修正が必要です。
ASRの結果の確実性を示す信頼性スコアは、ユーザーがエラーの識別と修正を支援する可能性があります。
この研究では、エンドツーエンドASRモデルの包括的な分析と36人の参加者を対象としたユーザー調査を通じて、エラー検出の信頼スコアの信頼性を評価します。
結果は、信頼性スコアが転写精度と相関するのに対し、エラー検出パフォーマンスは限られていることを示しています。
分類器は頻繁にエラーを逃したり、多くの誤検知を生み出したりして、実用的な有用性を損ないます。
信頼ベースのエラー検出は、補正効率を向上させず、参加者が役立つと認識されませんでした。
これらの調査結果は、信頼スコアの限界と、ASRの結果のユーザーの相互作用と説明可能性を改善するためのより洗練されたアプローチの必要性を強調しています。
要約(オリジナル)
Despite advances in Automatic Speech Recognition (ASR), transcription errors persist and require manual correction. Confidence scores, which indicate the certainty of ASR results, could assist users in identifying and correcting errors. This study evaluates the reliability of confidence scores for error detection through a comprehensive analysis of end-to-end ASR models and a user study with 36 participants. The results show that while confidence scores correlate with transcription accuracy, their error detection performance is limited. Classifiers frequently miss errors or generate many false positives, undermining their practical utility. Confidence-based error detection neither improved correction efficiency nor was perceived as helpful by participants. These findings highlight the limitations of confidence scores and the need for more sophisticated approaches to improve user interaction and explainability of ASR results.
arxiv情報
著者 | Korbinian Kuhn,Verena Kersken,Gottfried Zimmermann |
発行日 | 2025-03-19 11:33:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google