要約
本稿では、トルコ語を対象とした母語識別(NLI)の最初の応用例を紹介する。NLIは、異なる言語で書かれた文章を分析することで、書き手の母国語を予測するものである。ほとんどのNLI研究は英語に焦点を当てているが、我々の研究はその範囲をトルコ語に広げている。最近構築されたトルコ語学習者コーパスを使用し、3つの構文特徴(CFG生成規則、品詞N-gram、機能語)をL2テキストと組み合わせて使用し、このタスクにおける有効性を実証した。
要約(オリジナル)
In this paper, we present the first application of Native Language Identification (NLI) for the Turkish language. NLI involves predicting the writer’s first language by analysing their writing in different languages. While most NLI research has focused on English, our study extends its scope to Turkish. We used the recently constructed Turkish Learner Corpus and employed a combination of three syntactic features (CFG production rules, part-of-speech n-grams, and function words) with L2 texts to demonstrate their effectiveness in this task.
arxiv情報
著者 | Ahmet Yavuz Uluslu,Gerold Schneider |
発行日 | 2023-08-04 11:11:32+00:00 |
arxivサイト | arxiv_id(pdf) |