Linguistic Minimal Pairs Elicit Linguistic Similarity in Large Language Models

要約

言語最小ペアを利用して大規模言語モデル (LLM) の内部言語表現を調査する新しい分析を紹介します。
最小ペアにわたる LLM 活性化の差異間の類似性を測定することで、LLM によって取得される言語知識を定量化し、洞察を得ることができます。
3 つの言語の 100 以上の LLM と 150,000 の最小ペアにわたる大規模な実験では、LLM 間の一貫性、理論的分類との関係、意味論的コンテキストへの依存性、および関連する現象の言語間の整合性という 4 つの主要な側面から言語類似性の特性が明らかになりました。

私たちの調査結果は、1) 言語の類似性がトレーニング データの公開によって大きく影響され、高リソース言語での LLM 間の一致がより高くなることにつながることを示唆しています。
2) 言語の類似性は、きめの細かい理論的言語カテゴリーと強く一致しますが、より広範な理論的言語カテゴリーとは弱く一致します。
3) 言語的類似性は意味的類似性と弱い相関を示し、その文脈依存性を示します。
4) LLM は、関連する言語現象の理解において、限られた言語間連携を示します。
この研究は、LLM における言語の神経表現への窓としての最小ペアの可能性を実証し、LLM と言語理論の関係に光を当てます。
コードとデータは https://github.com/ChenDelong1999/Linguistic-Similarity で入手できます。

要約(オリジナル)

We introduce a novel analysis that leverages linguistic minimal pairs to probe the internal linguistic representations of Large Language Models (LLMs). By measuring the similarity between LLM activation differences across minimal pairs, we quantify the and gain insight into the linguistic knowledge captured by LLMs. Our large-scale experiments, spanning 100+ LLMs and 150k minimal pairs in three languages, reveal properties of linguistic similarity from four key aspects: consistency across LLMs, relation to theoretical categorizations, dependency to semantic context, and cross-lingual alignment of relevant phenomena. Our findings suggest that 1) linguistic similarity is significantly influenced by training data exposure, leading to higher cross-LLM agreement in higher-resource languages. 2) Linguistic similarity strongly aligns with fine-grained theoretical linguistic categories but weakly with broader ones. 3) Linguistic similarity shows a weak correlation with semantic similarity, showing its context-dependent nature. 4) LLMs exhibit limited cross-lingual alignment in their understanding of relevant linguistic phenomena. This work demonstrates the potential of minimal pairs as a window into the neural representations of language in LLMs, shedding light on the relationship between LLMs and linguistic theory. Codes and data are available at https://github.com/ChenDelong1999/Linguistic-Similarity

arxiv情報

著者 Xinyu Zhou,Delong Chen,Samuel Cahyawijaya,Xufeng Duan,Zhenguang G. Cai
発行日 2024-12-13 15:50:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク