TurBLiMP: A Turkish Benchmark of Linguistic Minimal Pairs

要約

単一言語および多言語モデル(LMS)の言語能力を評価するために設計された言語最小ペアの最初のトルコのベンチマークであるターブリンプを紹介します。
それぞれ1000の最小ペアで16の言語現象をカバーするターブリンプは、トルコ語の言語評価リソースの重要なギャップを埋めます。
ベンチマークの設計において、LMSの現在の構文評価、つまり形態学的プロセスを通じての語順の柔軟性と従属に依存しているトルコの2つの特性に特に注意を払っています。
幅広いLMSと新たに収集された人間の受容性判断セットに関する私たちの実験は、最先端の大規模なLMSでさえ、人間にとって挑戦的ではない文法現象に依然として苦労しており、人間と比較して語順と形態の複雑さに異なる感受性を示す可能性があることを明らかにしています。

要約(オリジナル)

We introduce TurBLiMP, the first Turkish benchmark of linguistic minimal pairs, designed to evaluate the linguistic abilities of monolingual and multilingual language models (LMs). Covering 16 linguistic phenomena with 1000 minimal pairs each, TurBLiMP fills an important gap in linguistic evaluation resources for Turkish. In designing the benchmark, we give extra attention to two properties of Turkish that remain understudied in current syntactic evaluations of LMs, namely word order flexibility and subordination through morphological processes. Our experiments on a wide range of LMs and a newly collected set of human acceptability judgments reveal that even cutting-edge Large LMs still struggle with grammatical phenomena that are not challenging for humans, and may also exhibit different sensitivities to word order and morphological complexity compared to humans.

arxiv情報

著者 Ezgi Başar,Francesca Padovani,Jaap Jumelet,Arianna Bisazza
発行日 2025-06-16 13:45:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク