Controlled Generation with Prompt Insertion for Natural Language Explanations in Grammatical Error Correction

要約

文法的誤り訂正 (GEC) では、訂正の理由をユーザーが確実に理解できるようにすることが重要です。
既存の研究は、修正の根拠に関するトークン、例、ヒントを提示していますが、修正の理由を直接説明していません。
大規模言語モデル (LLM) を使用して自然言語で直接説明する手法はさまざまなタスクに対して提案されていますが、GEC にはそのような手法は存在しません。
GEC 修正の説明を生成するには、入力トークンと出力トークンを調整し、修正点を特定し、対応する説明を一貫して提示する必要があります。
ただし、プロンプトでは生成を明示的に制御することが難しいため、複雑な形式を指定して説明を生成することは簡単ではありません。
この研究では、LLM が自然言語で修正の理由を説明できるように、プロンプト挿入 (PI) による制御生成と呼ばれる方法を導入しました。
PIでは、まずLLMが入力テキストを修正し、ルールに基づいて修正箇所を自動抽出します。
抽出された修正点は、プロンプトとして LLM の説明出力に順次挿入され、LLM が修正点の説明を生成するようにガイドされます。
また、NUCLE、CoNLL2013、および CoNLL2014 に注釈を付けることで、修正理由の Explainable GEC (XGEC) データセットも作成します。
オリジナルのプロンプトを使用した GPT-3 および ChatGPT からの生成では一部の修正点が欠落しますが、PI を使用した生成制御により、すべての修正点の説明を記述するように明示的にガイドでき、修正理由の生成のパフォーマンスの向上に貢献します。

要約(オリジナル)

In Grammatical Error Correction (GEC), it is crucial to ensure the user’s comprehension of a reason for correction. Existing studies present tokens, examples, and hints as to the basis for correction but do not directly explain the reasons for corrections. Although methods that use Large Language Models (LLMs) to provide direct explanations in natural language have been proposed for various tasks, no such method exists for GEC. Generating explanations for GEC corrections involves aligning input and output tokens, identifying correction points, and presenting corresponding explanations consistently. However, it is not straightforward to specify a complex format to generate explanations, because explicit control of generation is difficult with prompts. This study introduces a method called controlled generation with Prompt Insertion (PI) so that LLMs can explain the reasons for corrections in natural language. In PI, LLMs first correct the input text, and then we automatically extract the correction points based on the rules. The extracted correction points are sequentially inserted into the LLM’s explanation output as prompts, guiding the LLMs to generate explanations for the correction points. We also create an Explainable GEC (XGEC) dataset of correction reasons by annotating NUCLE, CoNLL2013, and CoNLL2014. Although generations from GPT-3 and ChatGPT using original prompts miss some correction points, the generation control using PI can explicitly guide to describe explanations for all correction points, contributing to improved performance in generating correction reasons.

arxiv情報

著者 Masahiro Kaneko,Naoaki Okazaki
発行日 2023-09-20 16:14:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク