要約
大規模言語モデル (LLM) は最近、言語能力が驚くべきレベルに達しており、人間の言語スキルとの比較が促されています。
しかし、最新世代の LLM の言語能力に関する体系的な調査は比較的少なく、存在する研究は、(i) 人間の一般化する顕著な能力を無視し、(ii) 英語のみに焦点を当てており、(iii)
構文や意味論を調査し、形態論など人間の言語の中心にある他の機能を無視します。
ここでは、類型的に異なる 4 つの言語 (具体的には、英語、ドイツ語、タミル語、トルコ語) で ChatGPT の形態学的機能の最初の厳密な分析を行うことで、これらのギャップを埋めます。
我々は、調査された 4 つの言語の新しい汚染されていないデータセットを使用して、Berko (1958) の wug テストのバージョンを ChatGPT に適用しました。
ChatGPT は、特に英語において、専用システムよりも大幅にパフォーマンスが劣ることがわかりました。
全体として、私たちの結果は形態学のレンズを通して、ChatGPT の言語能力に新たな光を当て、人間のような言語スキルという主張は時期尚早で誤解を招くことを示唆しています。
要約(オリジナル)
Large language models (LLMs) have recently reached an impressive level of linguistic capability, prompting comparisons with human language skills. However, there have been relatively few systematic inquiries into the linguistic capabilities of the latest generation of LLMs, and those studies that do exist (i) ignore the remarkable ability of humans to generalize, (ii) focus only on English, and (iii) investigate syntax or semantics and overlook other capabilities that lie at the heart of human language, like morphology. Here, we close these gaps by conducting the first rigorous analysis of the morphological capabilities of ChatGPT in four typologically varied languages (specifically, English, German, Tamil, and Turkish). We apply a version of Berko’s (1958) wug test to ChatGPT, using novel, uncontaminated datasets for the four examined languages. We find that ChatGPT massively underperforms purpose-built systems, particularly in English. Overall, our results — through the lens of morphology — cast a new light on the linguistic capabilities of ChatGPT, suggesting that claims of human-like language skills are premature and misleading.
arxiv情報
著者 | Leonie Weissweiler,Valentin Hofmann,Anjali Kantharuban,Anna Cai,Ritam Dutt,Amey Hengle,Anubha Kabra,Atharva Kulkarni,Abhishek Vijayakumar,Haofei Yu,Hinrich Schütze,Kemal Oflazer,David R. Mortensen |
発行日 | 2023-10-23 17:21:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google