GrammarGPT: Exploring Open-Source LLMs for Native Chinese Grammatical Error Correction with Supervised Fine-Tuning

要約

文法エラー修正は、文法的ではない文を自動的に修正することを目的としています。
最近、いくつかの研究で、クローズドソースの大規模言語モデル (LLM、例: ChatGPT) の文法エラー修正における優れた機能が実証されました。
ただし、オープンソース LLM の可能性はまだ解明されていません。
このペーパーでは、オープンソース LLM である GrammarGPT を導入し、ネイティブ中国語の文法エラー修正の可能性を予備的に調査しました。
GrammarGPT の中核となるレシピは、ChatGPT が生成したものと人間が注釈を付けたハイブリッド データセットを活用することです。
手がかりのある文法エラーについては、それらの手がかりを提供することで、ChatGPT が非文法的な文を生成するようにガイドするヒューリスティックな方法を提案しました。
手がかりのない文法上の誤りについては、公開されている Web サイトから文法的でない文章を収集し、手動で修正しました。
さらに、ネイティブ中国語の文法エラーを修正するモデルの能力を強化するために、エラーインバリアント拡張手法を採用しました。
私たちは最終的に約 1,000 個の並列データを構築し、これらのデータを利用してオープンソース LLM (深センの香港中文大学がリリースした Phoenix など) を命令チューニングで微調整しました。
実験結果は、GrammarGPT が既存の SOTA システムよりも大幅に優れていることを示しています。
モデル パラメーターは SOTA ベースラインよりも 20 倍大きいですが、命令チューニングに必要なデータ量は 1200 分の 1 であり、ネイティブ CGEC 上のオープンソース LLM の可能性を示しています。
私たちの GrammarGPT は、NLPCC2023 SharedTask1 で $3^{rd}$ にランクされ、私たちのアプローチの有効性を示しています。
コードとデータは \url{https://github.com/FreedomIntelligence/GrammarGPT} で入手できます。

要約(オリジナル)

Grammatical error correction aims to correct ungrammatical sentences automatically. Recently, some work has demonstrated the excellent capabilities of closed-source Large Language Models (LLMs, e.g., ChatGPT) in grammatical error correction. However, the potential of open-source LLMs remains unexplored. In this paper, we introduced GrammarGPT, an open-source LLM, to preliminary explore its potential for native Chinese grammatical error correction. The core recipe of GrammarGPT is to leverage the hybrid dataset of ChatGPT-generated and human-annotated. For grammatical errors with clues, we proposed a heuristic method to guide ChatGPT to generate ungrammatical sentences by providing those clues. For grammatical errors without clues, we collected ungrammatical sentences from publicly available websites and manually corrected them. In addition, we employed an error-invariant augmentation method to enhance the ability of the model to correct native Chinese grammatical errors. We ultimately constructed about 1k parallel data and utilized these data to fine-tune open-source LLMs (e.g., Phoenix, released by The Chinese University of Hong Kong, Shenzhen) with instruction tuning. The experimental results show that GrammarGPT outperforms the existing SOTA system significantly. Although model parameters are 20x larger than the SOTA baseline, the required amount of data for instruction tuning is 1200x smaller, illustrating the potential of open-source LLMs on native CGEC. Our GrammarGPT ranks $3^{rd}$ on NLPCC2023 SharedTask1, demonstrating our approach’s effectiveness. The code and data are available at \url{https://github.com/FreedomIntelligence/GrammarGPT}.

arxiv情報

著者 Yaxin Fan,Feng Jiang,Peifeng Li,Haizhou Li
発行日 2023-07-26 02:45:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク