要約
文法エラー補正(GEC)は、自然言語テキストの文法、スペル、および意味エラーを修正することを目的としています。
大規模な言語モデル(LLMS)の拡大により、直接的なテキスト生成は徐々にGECメソッドの焦点となり、少数のコンテキスト学習が費用対効果の高いソリューションを提示します。
ただし、入力テキスト間の類似性は必ずしも同様の文法エラーパターンに対応しているわけではないため、効果的なコンテキスト内の例を選択することは困難なままです。
この論文では、この問題に対処するために、自然言語文法誤差説明(GEE)に基づいた新しい検索方法を提案します。
この方法では、テスト入力のGEEを事前に構築されたデータベースサンプルのGEEと一致させることにより、適切な少ないショットデモンストレーションを取得します。ここでは、誤ったサンプルの説明がLLMによって生成されます。
主要なオープンソースとクローズドソースLLMの両方で多言語GEC少ないショット実験を実施しました。
5つの言語にわたる実験は、私たちの方法が、追加のトレーニングや言語適応を必要とせずに、既存のセマンティックおよびBM25ベースの検索技術よりも優れていることを示しています。
これはまた、一致するエラーパターンが例を選択するための鍵であることを示唆しています。
要約(オリジナル)
Grammatical error correction (GEC) aims to correct grammatical, spelling, and semantic errors in natural language text. With the growing of large language models (LLMs), direct text generation has gradually become the focus of the GEC methods, and few-shot in-context learning presents a cost-effective solution. However, selecting effective in-context examples remains challenging, as the similarity between input texts does not necessarily correspond to similar grammatical error patterns. In this paper, we propose a novel retrieval method based on natural language grammatical error explanations (GEE) to address this issue. Our method retrieves suitable few-shot demonstrations by matching the GEE of the test input with that of pre-constructed database samples, where explanations for erroneous samples are generated by LLMs. We conducted multilingual GEC few-shot experiments on both major open-source and closed-source LLMs. Experiments across five languages show that our method outperforms existing semantic and BM25-based retrieval techniques, without requiring additional training or language adaptation. This also suggests that matching error patterns is key to selecting examples.
arxiv情報
著者 | Wei Li,Wen Luo,Guangyue Peng,Houfeng Wang |
発行日 | 2025-02-12 15:41:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google