Towards End-to-End Spoken Grammatical Error Correction

要約

文法的なフィードバックは、L2 の学習者、教師、試験者にとって非常に重要です。
音声文法誤り訂正 (GEC) は、L2 学習者に会話時の文法の使用に関するフィードバックを提供することを目的としています。
このプロセスは通常、ASR システム、不流動性除去、GEC で構成されるカスケード パイプラインに依存しており、これらの個々のモジュール間でエラーが伝播するという懸念があります。
このペーパーでは、音声認識基盤モデルである Whisper を利用した、音声 GEC への代替の「エンドツーエンド」アプローチを紹介します。
この基礎モデルは、ASR や非流動性の除去など、フレームワーク全体またはその一部を置き換えるために使用できます。
これらのエンドツーエンドのアプローチは、フリースピーキングの音声言語評価テストである Linguaskill から得られたデータに関して、より標準的なカスケード アプローチと比較されます。
結果は、このアーキテクチャ内でエンドツーエンドの音声 GEC が可能であることを示していますが、利用可能なデータが不足しているため、大量のテキストベースの GEC データを使用するシステムと比較して現在のパフォーマンスが制限されます。
逆に、エンドツーエンドの不一致の検出と除去は、注意ベースのウィスパーにとって学習が容易であり、カスケード アプローチよりも優れています。
さらに、この文書では、音声 GEC のエンドツーエンド システムを使用する場合に候補者にフィードバックを提供する際の課題についても説明しています。

要約(オリジナル)

Grammatical feedback is crucial for L2 learners, teachers, and testers. Spoken grammatical error correction (GEC) aims to supply feedback to L2 learners on their use of grammar when speaking. This process usually relies on a cascaded pipeline comprising an ASR system, disfluency removal, and GEC, with the associated concern of propagating errors between these individual modules. In this paper, we introduce an alternative ‘end-to-end’ approach to spoken GEC, exploiting a speech recognition foundation model, Whisper. This foundation model can be used to replace the whole framework or part of it, e.g., ASR and disfluency removal. These end-to-end approaches are compared to more standard cascaded approaches on the data obtained from a free-speaking spoken language assessment test, Linguaskill. Results demonstrate that end-to-end spoken GEC is possible within this architecture, but the lack of available data limits current performance compared to a system using large quantities of text-based GEC data. Conversely, end-to-end disfluency detection and removal, which is easier for the attention-based Whisper to learn, does outperform cascaded approaches. Additionally, the paper discusses the challenges of providing feedback to candidates when using end-to-end systems for spoken GEC.

arxiv情報

著者 Stefano Bannò,Rao Ma,Mengjie Qian,Kate M. Knill,Mark J. F. Gales
発行日 2024-07-19 11:32:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, eess.AS パーマリンク