Multilingual Grammatical Error Annotation: Combining Language-Agnostic Framework with Language-Specific Flexibility

要約

文法エラー補正(GEC)は、正確なエラーアノテーションと評価に依存していますが、$ \ texttt {errant} $、類型的に多様な言語に拡張した場合の顔の制限などの既存のフレームワークに依存しています。
この論文では、多言語の文法エラーアノテーションのための標準化されたモジュール式フレームワークを紹介します。
私たちのアプローチは、言語に依存しない基盤と構造化された言語固有の拡張機能を組み合わせて、言語間で一貫性と柔軟性の両方を可能にします。
$ \ texttt {errant} $を$ \ texttt {stanza} $を使用して再実装して、より広範な多言語カバレッジをサポートし、一般的な消費からよりカスタマイズされた言語学的拒否に至るまで、英語、ドイツ語、チェコ語、韓国語、中国語へのアプリケーションを通じてフレームワークの適応性を実証します。
この作業は、言語間でスケーラブルで解釈可能なGEC注釈をサポートし、多言語設定でより一貫した評価を促進します。
完全なコードベースおよび注釈ツールには、https://github.com/open-writing-evaluation/jp_errant_beaでアクセスできます。

要約(オリジナル)

Grammatical Error Correction (GEC) relies on accurate error annotation and evaluation, yet existing frameworks, such as $\texttt{errant}$, face limitations when extended to typologically diverse languages. In this paper, we introduce a standardized, modular framework for multilingual grammatical error annotation. Our approach combines a language-agnostic foundation with structured language-specific extensions, enabling both consistency and flexibility across languages. We reimplement $\texttt{errant}$ using $\texttt{stanza}$ to support broader multilingual coverage, and demonstrate the framework’s adaptability through applications to English, German, Czech, Korean, and Chinese, ranging from general-purpose annotation to more customized linguistic refinements. This work supports scalable and interpretable GEC annotation across languages and promotes more consistent evaluation in multilingual settings. The complete codebase and annotation tools can be accessed at https://github.com/open-writing-evaluation/jp_errant_bea.

arxiv情報

著者 Mengyang Qiu,Tran Minh Nguyen,Zihao Huang,Zelong Li,Yang Gu,Qingyu Gao,Siliang Liu,Jungyeul Park
発行日 2025-06-09 13:01:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク