Density estimation with LLMs: a geometric investigation of in-context learning trajectories

要約

大規模言語モデル (LLM) は、時系列予測を含むさまざまなタスクにわたってコンテキスト内学習を実行するための顕著な創発的能力を示します。
この研究では、コンテキスト内で観察されたデータから確率密度関数 (PDF) を推定する LLM の能力を調査します。
このような密度推定 (DE) は、多くの確率モデリング問題の基礎となる基本的なタスクです。
私たちは集中主成分分析 (InPCA) を活用して、LLaMA-2 モデルのコンテキスト内学習ダイナミクスを視覚化および分析します。
私たちの主な発見は、これらの LLM はすべて、ヒストグラムやガウス カーネル密度推定 (KDE) などの従来の密度推定方法とは異なる、低次元 InPCA 空間で同様の学習軌跡をたどることです。
LLaMA インコンテキスト DE プロセスを、適応的なカーネル幅と形状を備えた KDE として解釈します。
このカスタム カーネル モデルは、パラメータが 2 つしかないにもかかわらず、LLaMA の動作の重要な部分を捉えています。
さらに、LLaMA のカーネル幅と形状が古典的なアルゴリズムと異なる理由を推測し、LLM におけるコンテキスト内確率論的推論のメカニズムへの洞察を提供します。

要約(オリジナル)

Large language models (LLMs) demonstrate remarkable emergent abilities to perform in-context learning across various tasks, including time series forecasting. This work investigates LLMs’ ability to estimate probability density functions (PDFs) from data observed in-context; such density estimation (DE) is a fundamental task underlying many probabilistic modeling problems. We leverage the Intensive Principal Component Analysis (InPCA) to visualize and analyze the in-context learning dynamics of LLaMA-2 models. Our main finding is that these LLMs all follow similar learning trajectories in a low-dimensional InPCA space, which are distinct from those of traditional density estimation methods like histograms and Gaussian kernel density estimation (KDE). We interpret the LLaMA in-context DE process as a KDE with an adaptive kernel width and shape. This custom kernel model captures a significant portion of LLaMA’s behavior despite having only two parameters. We further speculate on why LLaMA’s kernel width and shape differs from classical algorithms, providing insights into the mechanism of in-context probabilistic reasoning in LLMs.

arxiv情報

著者 Toni J. B. Liu,Nicolas Boullé,Raphaël Sarfati,Christopher J. Earls
発行日 2024-10-07 17:22:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ML パーマリンク