GPT-3.5 for Grammatical Error Correction

要約

この論文では、複数の言語における文法的誤り訂正 (GEC) のための GPT-3.5 のアプリケーションをいくつかの設定で調査します: ゼロショット GEC、GEC の微調整、GPT-3.5 を使用した他の GEC モデルによって生成された訂正仮説の再ランク付け

ゼロショット設定では、言語モデル (LM) による文法性の推定、Scribendi テスト、文の意味埋め込みの比較など、いくつかの方法を使用して GPT-3.5 によって提案された修正の自動評価を実行します。
GPT-3.5 には、誤った文章を過剰に修正し、別の修正を提案する傾向があることが知られています。
チェコ語、ドイツ語、ロシア語、スペイン語、ウクライナ語などのいくつかの言語では、GPT-3.5 は意味論を含むソース文を大幅に変更するため、参照ベースの指標による評価に大きな課題が生じます。
英語の場合、GPT-3.5 は高い再現率を示し、流暢な修正を生成し、一般に文の意味を保持します。
しかし、英語とロシア語の人間による評価では、GPT-3.5 は強力なエラー検出機能にもかかわらず、句読点の間違い、時制の間違い、単語間の構文の依存関係、文レベルでの語彙の互換性など、いくつかのタイプのエラーに苦戦していることが明らかになりました。

要約(オリジナル)

This paper investigates the application of GPT-3.5 for Grammatical Error Correction (GEC) in multiple languages in several settings: zero-shot GEC, fine-tuning for GEC, and using GPT-3.5 to re-rank correction hypotheses generated by other GEC models. In the zero-shot setting, we conduct automatic evaluations of the corrections proposed by GPT-3.5 using several methods: estimating grammaticality with language models (LMs), the Scribendi test, and comparing the semantic embeddings of sentences. GPT-3.5 has a known tendency to over-correct erroneous sentences and propose alternative corrections. For several languages, such as Czech, German, Russian, Spanish, and Ukrainian, GPT-3.5 substantially alters the source sentences, including their semantics, which presents significant challenges for evaluation with reference-based metrics. For English, GPT-3.5 demonstrates high recall, generates fluent corrections, and generally preserves sentence semantics. However, human evaluation for both English and Russian reveals that, despite its strong error-detection capabilities, GPT-3.5 struggles with several error types, including punctuation mistakes, tense errors, syntactic dependencies between words, and lexical compatibility at the sentence level.

arxiv情報

著者 Anisia Katinskaia,Roman Yangarber
発行日 2024-05-14 09:51:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク