Quantifying Emergence in Large Language Models

要約

LLM の「知的な」行動として広く概念化されている創発は、最近研究されており、測定可能な定義がないため定量化することが困難であることが証明されています。
最も一般的には、広範なデータセットとタスクにわたるモデルのパフォーマンスを通じて統計的に推定されており、大量のリソースが消費されます。
さらに、そのような推定は解釈が難しく、モデルの固有の創発を正確に反映していない可能性があります。
この研究では、羽化を推定するための定量化可能なソリューションを提案します。
力学における創発主義に触発され、巨視的 (意味論的) レベルのエントロピー低減と微視的 (トークン) レベルのエントロピー低減を比較することによって創発の強さを定量化します。これらは両方ともトランスフォーマー ブロック内の表現から導出されます。
低コストの推定器を使用する当社の定量化手法は、インコンテキスト学習 (ICL) と自然文の両方で、一連の LM (GPT-2、GEMMA など) にわたって一貫した動作を示します。
経験的結果は、(1) 私たちの方法は、パフォーマンスメトリクスに基づいて既存の観察と一致する一貫した測定を提供し、創発定量化の有効性を検証します。
(2) 私たちが提案した測定基準は、私たちの測定基準の分散と ICL の「ショット」数との相関関係などの新しい出現パターンを明らかにし、LLM の幻覚を解釈する新しい方法をさらに示唆します。
(3) GPT-2 のような小規模な LM を介して、より大規模でクローズドリソースの LM の出現を推定するための潜在的なソリューションを提供します。
コードは https://github.com/Zodiark-ch/Emergence-of-LLMs/ で入手できます。

要約(オリジナル)

Emergence, broadly conceptualized as the “intelligent” behaviors of LLMs, has recently been studied and proved challenging to quantify due to the lack of a measurable definition. Most commonly, it has been estimated statistically through model performances across extensive datasets and tasks, which consumes significant resources. In addition, such estimation is difficult to interpret and may not accurately reflect the models’ intrinsic emergence. In this work, we propose a quantifiable solution for estimating emergence. Inspired by emergentism in dynamics, we quantify the strength of emergence by comparing the entropy reduction of the macroscopic (semantic) level with that of the microscopic (token) level, both of which are derived from the representations within the transformer block. Using a low-cost estimator, our quantification method demonstrates consistent behaviors across a suite of LMs (GPT-2, GEMMA, etc.) under both in-context learning (ICL) and natural sentences. Empirical results show that (1) our method gives consistent measurements which align with existing observations based on performance metrics, validating the effectiveness of our emergence quantification; (2) our proposed metric uncovers novel emergence patterns such as the correlations between the variance of our metric and the number of “shots” in ICL, which further suggests a new way of interpreting hallucinations in LLMs; (3) we offer a potential solution towards estimating the emergence of larger and closed-resource LMs via smaller LMs like GPT-2. Our codes are available at: https://github.com/Zodiark-ch/Emergence-of-LLMs/.

arxiv情報

著者 Hang Chen,Xinyu Yang,Jiaying Zhu,Wenya Wang
発行日 2024-05-21 09:12:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク