要約
大規模言語モデル (LLM) は、コンテキスト内学習 (ICL) の新たな機能を示しています。
ある研究では、ICL が勾配降下法を機能的に実行するものであると説明されています。
この論文では、ICL が勾配ベースの学習と機能的に同等であるかどうかを診断する新しい方法を紹介します。
私たちのアプローチは、逆周波数効果 (IFE) に基づいています。これは、エラー駆動型の学習者が、頻度の高い例よりも頻度の低い例でトレーニングした場合に、より大きな更新を示すことが期待される現象です。
IFE は、人間が構造プライミング (最近遭遇した文構造を生成する傾向) の文脈でこの効果を示すため、心理言語学で以前に研究されてきました。
IFE は、人間の構造的プライミングにはエラー駆動型の学習メカニズムが関与している必要があるという証拠として使用されています。
私たちの実験では、ICL 内で構造プライミングをシミュレートしたところ、LLM が IFE を示し、その効果がより大きなモデルでより強くなることがわかりました。
私たちは、ICL は確かに勾配ベースの学習の一種であると結論付け、勾配コンポーネントが ICL 中のフォワード パスで暗黙的に計算されるという仮説を裏付けています。
私たちの結果は、人間と LLM の両方が勾配ベースのエラー駆動型の処理メカニズムを利用していることを示唆しています。
要約(オリジナル)
Large language models (LLMs) have shown the emergent capability of in-context learning (ICL). One line of research has explained ICL as functionally performing gradient descent. In this paper, we introduce a new way of diagnosing whether ICL is functionally equivalent to gradient-based learning. Our approach is based on the inverse frequency effect (IFE) — a phenomenon in which an error-driven learner is expected to show larger updates when trained on infrequent examples than frequent ones. The IFE has previously been studied in psycholinguistics because humans show this effect in the context of structural priming (the tendency for people to produce sentence structures they have encountered recently); the IFE has been used as evidence that human structural priming must involve error-driven learning mechanisms. In our experiments, we simulated structural priming within ICL and found that LLMs display the IFE, with the effect being stronger in larger models. We conclude that ICL is indeed a type of gradient-based learning, supporting the hypothesis that a gradient component is implicitly computed in the forward pass during ICL. Our results suggest that both humans and LLMs make use of gradient-based, error-driven processing mechanisms.
arxiv情報
著者 | Zhenghao Zhou,Robert Frank,R. Thomas McCoy |
発行日 | 2024-06-26 17:06:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google