NaSGEC: a Multi-Domain Chinese Grammatical Error Correction Dataset from Native Speaker Texts

要約

複数のドメインのネイティブ スピーカーのテキストに対する中国語文法誤り訂正 (CGEC) の研究を促進する新しいデータセットである NaSGEC を紹介します。
これまでの CGEC の研究は主に、単一ドメインのテキスト、特に学習者のエッセイの修正に焦点を当てていました。
対象領域を広げるために、ソーシャルメディア、科学論文、試験などの 3 つのネイティブ領域からの 12,500 文の複数の参考文献に注釈を付けます。
当社は、最先端の CGEC モデルとさまざまなトレーニング データを採用することにより、NaSGEC に対して確かなベンチマーク結果を提供します。
さらに、経験的観点と統計的観点の両方から、ドメイン間のつながりとギャップについて詳細な分析を実行します。
私たちは、この研究が、クロスドメイン GEC という重要ではあるが十分に検討されていない方向性に関する将来の研究に刺激を与えることができることを願っています。

要約(オリジナル)

We introduce NaSGEC, a new dataset to facilitate research on Chinese grammatical error correction (CGEC) for native speaker texts from multiple domains. Previous CGEC research primarily focuses on correcting texts from a single domain, especially learner essays. To broaden the target domain, we annotate multiple references for 12,500 sentences from three native domains, i.e., social media, scientific writing, and examination. We provide solid benchmark results for NaSGEC by employing cutting-edge CGEC models and different training data. We further perform detailed analyses of the connections and gaps between our domains from both empirical and statistical views. We hope this work can inspire future studies on an important but under-explored direction–cross-domain GEC.

arxiv情報

著者 Yue Zhang,Bo Zhang,Haochen Jiang,Zhenghua Li,Chen Li,Fei Huang,Min Zhang
発行日 2023-05-25 13:05:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク