要約
自然言語処理 (NLP) テクノロジーを教育アプリケーションに統合すると、特に言語学習の分野で有望な結果が得られています。
最近では、多くのオープンドメインの音声チャットボットが話し相手として使用され、言語学習者の言語スキルの向上に役立ちます。
ただし、重大な課題の 1 つは、非ネイティブまたは非流暢な音声を認識する際の高い単語誤り率 (WER) であり、これにより会話の流れが中断され、学習者の失望につながります。
このペーパーでは、会話設定における ASR エラー修正のための GPT4 の使用について検討します。
WER に加えて、会話の品質に対するエラー修正モデルの影響を評価するために、セマンティック テキスト類似性 (STS) と次応答感度 (NRS) メトリクスを使用することを提案します。
GPT4 によって修正された文字起こしは、WER の増加にもかかわらず、会話の品質の向上につながることがわかりました。
また、GPT4 は、ドメイン内トレーニング データを必要とせずに、標準的なエラー訂正方法よりも優れたパフォーマンスを発揮します。
要約(オリジナル)
The integration of natural language processing (NLP) technologies into educational applications has shown promising results, particularly in the language learning domain. Recently, many spoken open-domain chatbots have been used as speaking partners, helping language learners improve their language skills. However, one of the significant challenges is the high word-error-rate (WER) when recognizing non-native/non-fluent speech, which interrupts conversation flow and leads to disappointment for learners. This paper explores the use of GPT4 for ASR error correction in conversational settings. In addition to WER, we propose to use semantic textual similarity (STS) and next response sensibility (NRS) metrics to evaluate the impact of error correction models on the quality of the conversation. We find that transcriptions corrected by GPT4 lead to higher conversation quality, despite an increase in WER. GPT4 also outperforms standard error correction methods without the need for in-domain training data.
arxiv情報
著者 | Long Mai,Julie Carson-Berndsen |
発行日 | 2023-07-19 04:25:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google