要約
大規模な言語モデル(LLM)は、英語を含む多くの言語で自然言語理解(NLU)タスクで非常にうまく機能します。
しかし、世界で5番目に発言された言語であるにもかかわらず、バングラの文法誤差補正(GEC)は未発達のままです。
この作業では、バングラGECを改善するためにLLMSを活用する方法を調査します。
そのために、最初にバングラで12のエラークラスを広範囲に分類し、ネイティブバングラスピーカーの調査を行って、実際のエラーを収集します。
次に、正しいものに対応する文法的に間違った文を作成するためのルールベースのノイズインジェクション方法を考案します。
このように作成されたVaiyakaranaデータセットは、5,67,422文で構成され、そのうち2,27,119は誤っています。
このデータセットは、バングラのGECのタスクについてLLMSを指示するために使用されます。
評価によると、\名を使用した命令調整により、ゼロショット設定と比較してLLMSのGECパフォーマンスが3-7パーセントポイント改善され、文法エラーの識別において人間のようなパフォーマンスを達成することが示されています。
しかし、人間は誤差の補正において優れたままです。
要約(オリジナル)
Large Language Models (LLMs) perform exceedingly well in Natural Language Understanding (NLU) tasks for many languages including English. However, despite being the fifth most-spoken language globally, Grammatical Error Correction (GEC) in Bangla remains underdeveloped. In this work, we investigate how LLMs can be leveraged for improving Bangla GEC. For that, we first do an extensive categorization of 12 error classes in Bangla, and take a survey of native Bangla speakers to collect real-world errors. We next devise a rule-based noise injection method to create grammatically incorrect sentences corresponding to correct ones. The Vaiyakarana dataset, thus created, consists of 5,67,422 sentences of which 2,27,119 are erroneous. This dataset is then used to instruction-tune LLMs for the task of GEC in Bangla. Evaluations show that instruction-tuning with \name improves GEC performance of LLMs by 3-7 percentage points as compared to the zero-shot setting, and makes them achieve human-like performance in grammatical error identification. Humans, though, remain superior in error correction.
arxiv情報
| 著者 | Pramit Bhattacharyya,Arnab Bhattacharya |
| 発行日 | 2025-06-05 14:17:05+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google