Organic Data-Driven Approach for Turkish Grammatical Error Correction and LLMs

要約

文法的誤りの修正は、深層学習の最近の進歩により大幅な進歩を遂げています。
これらの手法には膨大な量のデータが必要となるため、このギャップを埋めるために合成データセットが構築されています。
残念ながら、合成データセットは場合によっては十分に有機的ではなく、最初からクリーンなデータを必要とすることさえあります。
さらに、これまでに行われた仕事のほとんどは主に英語に焦点を当てています。
この研究では、新しい有機データ駆動型アプローチであるクリーン挿入を導入し、有機データから並列トルコ語文法誤り訂正データセットを構築し、大規模言語モデルのトレーニングに使用されるデータをクリーンにします。
私たちは、公的に入手可能な 3 つのトルコ語文法誤り訂正テスト セットのうち、2 つのトルコ語文法誤り訂正テスト セットで最先端の結果を達成しました。
また、トレーニング言語モデルのトレーニング損失に対するこの方法の有効性も示します。

要約(オリジナル)

Grammatical Error Correction has seen significant progress with the recent advancements in deep learning. As those methods require huge amounts of data, synthetic datasets are being built to fill this gap. Unfortunately, synthetic datasets are not organic enough in some cases and even require clean data to start with. Furthermore, most of the work that has been done is focused mostly on English. In this work, we introduce a new organic data-driven approach, clean insertions, to build parallel Turkish Grammatical Error Correction datasets from any organic data, and to clean the data used for training Large Language Models. We achieve state-of-the-art results on two Turkish Grammatical Error Correction test sets out of the three publicly available ones. We also show the effectiveness of our method on the training losses of training language models.

arxiv情報

著者 Asım Ersoy,Olcay Taner Yıldız
発行日 2024-05-24 08:00:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク