要約
大規模な言語モデル(LLMS)の出力は、内部モデルのパラメーターとコンテキストウィンドウに提供される入力の関数です。
ここで提示されている仮説は、貪欲なサンプリング戦略の下で、LLMの出力の分散は、モデルのパラメトリック知識に埋め込まれた概念的確実性の関数であり、入力の語彙的分散の関数であるということです。
モデルを微調整すると、モデル出力の感度が語彙入力変動に対する感度が低下します。
これは、分類問題に適用され、予測クラスの確実性を推定するために確率的方法が提案されます。
要約(オリジナル)
The output of Large Language Models (LLMs) are a function of the internal model’s parameters and the input provided into the context window. The hypothesis presented here is that under a greedy sampling strategy the variance in the LLM’s output is a function of the conceptual certainty embedded in the model’s parametric knowledge, as well as the lexical variance in the input. Finetuning the model results in reducing the sensitivity of the model output to the lexical input variations. This is then applied to a classification problem and a probabilistic method is proposed for estimating the certainties of the predicted classes.
arxiv情報
著者 | Srijith Rajamohan,Ahmed Salhin,Josh Frazier,Rohit Kumar,Yu-Cheng Tsai,Todd Cook |
発行日 | 2025-02-12 18:42:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google