GECTurk: Grammatical Error Correction and Detection Dataset for Turkish

要約

文法エラー検出および修正 (GEC) ツールは、ネイティブ スピーカーや第二言語学習者にとって有用であることが証明されています。
このようなツールの開発には、注釈付きの大量の並列データが必要ですが、ほとんどの言語ではこれを利用できません。
合成データの生成は、このようなデータの不足を克服するための一般的な方法です。
ただし、トルコ語のような形態素が豊富な言語では、音韻、形態素、構文の情報を必要とする複雑な記述規則があるため、これは簡単ではありません。
この研究では、複雑な変換関数を通じて実装された、専門家が厳選した 20 以上の文法およびスペル ルール (別名、書き方ルール) をカバーする、トルコ語用の柔軟で拡張可能な合成データ生成パイプラインを紹介します。
このパイプラインを使用して、専門家が編集した記事から 130,000 の高品質な並列文を導き出します。
さらに、一連の映画レビューに手動で注釈を付けることで、より現実的なテスト セットを作成します。
タスクを定式化する 3 つのベースライン、i) ニューラル機械翻訳、ii) シーケンスのタグ付け、および iii) 事前トレーニングされたデコーダー専用モデルによるプレフィックス調整を実装し、強力な結果を達成しました。
さらに、提案されたアプローチの転送可能性と堅牢性に関する洞察を得るために、ドメイン外のデータセットに対して徹底的な実験を実行します。
私たちの結果は、私たちのコーパスである GECTurk が高品質であり、ドメイン外設定での知識の伝達を可能にすることを示唆しています。
トルコ GEC に関するさらなる研究を促進するために、データセット、ベースライン モデル、および合成データ生成パイプラインを https://github.com/GGLAB-KU/gecturk でリリースします。

要約(オリジナル)

Grammatical Error Detection and Correction (GEC) tools have proven useful for native speakers and second language learners. Developing such tools requires a large amount of parallel, annotated data, which is unavailable for most languages. Synthetic data generation is a common practice to overcome the scarcity of such data. However, it is not straightforward for morphologically rich languages like Turkish due to complex writing rules that require phonological, morphological, and syntactic information. In this work, we present a flexible and extensible synthetic data generation pipeline for Turkish covering more than 20 expert-curated grammar and spelling rules (a.k.a., writing rules) implemented through complex transformation functions. Using this pipeline, we derive 130,000 high-quality parallel sentences from professionally edited articles. Additionally, we create a more realistic test set by manually annotating a set of movie reviews. We implement three baselines formulating the task as i) neural machine translation, ii) sequence tagging, and iii) prefix tuning with a pretrained decoder-only model, achieving strong results. Furthermore, we perform exhaustive experiments on out-of-domain datasets to gain insights on the transferability and robustness of the proposed approaches. Our results suggest that our corpus, GECTurk, is high-quality and allows knowledge transfer for the out-of-domain setting. To encourage further research on Turkish GEC, we release our datasets, baseline models, and the synthetic data generation pipeline at https://github.com/GGLAB-KU/gecturk.

arxiv情報

著者 Atakan Kara,Farrin Marouf Sofian,Andrew Bond,Gözde Gül Şahin
発行日 2023-09-20 14:25:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク