Turkish Native Language Identification


この論文では、トルコ語に対する母国語識別 (NLI) の最初のアプリケーションを紹介します。
NLI では、さまざまな言語で書かれた文章を分析することで、その作家の第一言語を予測します。
NLI のほとんどの研究は英語に焦点を当てていますが、私たちの研究はその範囲をトルコ語にも広げています。
私たちは、最近構築されたトルコ語学習者コーパスを使用し、3 つの構文特徴 (CFG 生成ルール、品詞 N グラム、機能語) と L2 テキストの組み合わせを使用して、このタスクでの有効性を実証しました。


In this paper, we present the first application of Native Language Identification (NLI) for the Turkish language. NLI involves predicting the writer’s first language by analysing their writing in different languages. While most NLI research has focused on English, our study extends its scope to Turkish. We used the recently constructed Turkish Learner Corpus and employed a combination of three syntactic features (CFG production rules, part-of-speech n-grams and function words) with L2 texts to demonstrate their effectiveness in this task.


著者 Ahmet Yavuz Uluslu,Gerold Schneider
発行日 2023-07-27 13:28:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク