Native Language Identification with Large Language Models

要約

GPT-4 などの LLM を使用した母国語識別 (NLI) に関する最初の実験を紹介します。
NLI は、作家の第 2 言語での文章を分析することでその作家の第一言語を予測するタスクであり、第 2 言語習得と法医学言語学で使用されます。
私たちの結果は、GPT モデルが NLI 分類に熟練していることを示しており、GPT-4 は、ゼロショット設定のベンチマーク TOEFL11 テストで 91.7% という新しいパフォーマンス記録を樹立しました。
また、以前の完全監視設定とは異なり、LLM は既知のクラスのセットに制限されずに NLI を実行でき、これは実際のアプリケーションに実用的な意味を持つことも示します。
最後に、LLM がスペルミス、構文パターン、直接翻訳された言語パターンの使用法に基づいて推論を提供し、選択の正当性を提供できることも示します。

要約(オリジナル)

We present the first experiments on Native Language Identification (NLI) using LLMs such as GPT-4. NLI is the task of predicting a writer’s first language by analyzing their writings in a second language, and is used in second language acquisition and forensic linguistics. Our results show that GPT models are proficient at NLI classification, with GPT-4 setting a new performance record of 91.7% on the benchmark TOEFL11 test set in a zero-shot setting. We also show that unlike previous fully-supervised settings, LLMs can perform NLI without being limited to a set of known classes, which has practical implications for real-world applications. Finally, we also show that LLMs can provide justification for their choices, providing reasoning based on spelling errors, syntactic patterns, and usage of directly translated linguistic patterns.

arxiv情報

著者 Wei Zhang,Alexandre Salle
発行日 2023-12-13 00:52:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク