要約
大規模言語モデル (LLM) における言語一般化の基礎となるメカニズムは何ですか?
この問題はかなりの注目を集めており、ほとんどの研究では LLM の言語スキルがルールにどの程度似ているかが分析されています。
現時点では、LLM における言語一般化が、保存された見本に対する類似操作として形式化できる類似プロセスの結果として同様にうまく説明できるかどうかは不明です。
従来の研究の主な欠点は、規則性の高い言語現象に焦点を当てていることであり、それに対してルールベースのアプローチと類推的アプローチが同じ予測を行うことです。
ここでは、代わりに派生形態学、特に顕著な変動性を示す英語の形容詞の名詞化を調べます。
私たちは、LLM における言語一般化を調査するための新しい方法を導入します。GPT-J に焦点を当て、ルールベースの類似学習をインスタンス化する認知モデルを LLM トレーニング データに適合させ、ノンス形容詞のセットに対する予測を LLM の予測と比較します。
、根底にあるメカニズムに関して直接結論を引き出すことができます。
予想通り、規則ベースのモデルと類推モデルは、規則的な名詞化パターンを持つ形容詞についても GPT-J の予測を同様にうまく説明します。
ただし、可変の名詞化パターンを持つ形容詞の場合、類推モデルの方がはるかに優れた一致を提供します。
さらに、GPT-J の動作は、規則的な形式であっても個々の単語の頻度に敏感であり、この動作は規則的な形式の類似説明と一致しますが、ルールベースの動作ではありません。
これらの発見は、形容詞の名詞化に関する GPT-J の言語的一般化にはルールが関与しているという仮説に反駁し、基礎的なメカニズムとして保存された例文に対する類似性操作を示唆しています。
全体として、私たちの研究は、類似プロセスがLLMの言語的一般化において、これまで考えられていたよりも大きな役割を果たしていることを示唆しています。
要約(オリジナル)
What mechanisms underlie linguistic generalization in large language models (LLMs)? This question has attracted considerable attention, with most studies analyzing the extent to which the language skills of LLMs resemble rules. As of yet, it is not known whether linguistic generalization in LLMs could equally well be explained as the result of analogical processes, which can be formalized as similarity operations on stored exemplars. A key shortcoming of prior research is its focus on linguistic phenomena with a high degree of regularity, for which rule-based and analogical approaches make the same predictions. Here, we instead examine derivational morphology, specifically English adjective nominalization, which displays notable variability. We introduce a new method for investigating linguistic generalization in LLMs: focusing on GPT-J, we fit cognitive models that instantiate rule-based and analogical learning to the LLM training data and compare their predictions on a set of nonce adjectives with those of the LLM, allowing us to draw direct conclusions regarding underlying mechanisms. As expected, rule-based and analogical models explain the predictions of GPT-J equally well for adjectives with regular nominalization patterns. However, for adjectives with variable nominalization patterns, the analogical model provides a much better match. Furthermore, GPT-J’s behavior is sensitive to the individual word frequencies, even for regular forms, a behavior that is consistent with an analogical account of regular forms but not a rule-based one. These findings refute the hypothesis that GPT-J’s linguistic generalization on adjective nominalization involves rules, suggesting similarity operations on stored exemplars as the underlying mechanism. Overall, our study suggests that analogical processes play a bigger role in the linguistic generalization of LLMs than previously thought.
arxiv情報
著者 | Valentin Hofmann,Leonie Weissweiler,David Mortensen,Hinrich Schütze,Janet Pierrehumbert |
発行日 | 2024-11-12 18:15:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google