要約
この論文では、トルコ語に対する母国語識別 (NLI) の最初のアプリケーションを紹介します。
NLI では、さまざまな言語で書かれた文章を分析することで、その作家の第一言語を予測します。
NLI のほとんどの研究は英語に焦点を当てていますが、私たちの研究はその範囲をトルコ語にも広げています。
私たちは、最近構築されたトルコ語学習者コーパスを使用し、3 つの構文特徴 (CFG 生成ルール、品詞 N グラム、機能語) と L2 テキストの組み合わせを採用して、このタスクでの有効性を実証しました。
要約(オリジナル)
In this paper, we present the first application of Native Language Identification (NLI) for the Turkish language. NLI involves predicting the writer’s first language by analysing their writing in different languages. While most NLI research has focused on English, our study extends its scope to Turkish. We used the recently constructed Turkish Learner Corpus and employed a combination of three syntactic features (CFG production rules, part-of-speech n-grams, and function words) with L2 texts to demonstrate their effectiveness in this task.
arxiv情報
著者 | Ahmet Yavuz Uluslu,Gerold Schneider |
発行日 | 2023-07-28 13:27:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google