Non-Determinism of ‘Deterministic’ LLM Settings

要約

LLM(大規模な言語モデル)開業医は、一般に、出力が決定論的と予想される設定の下で同じ入力に対して変化する可能性があることに気づきます。
しかし、これがどれほど広範であるか、そして結果にどのような影響を与えるかについての質問は、私たちの知識に体系的に調査されていません。
ゼロショット設定と少数のショット設定の両方で、10回のランにわたって8つの一般的なタスクに適用されると、決定論的であるように構成された5つのLLMSで非決定論を調査します。
自然に発生するランで最大15%の精度の変動が、可能な限り最高のパフォーマンスのギャップが最大70%までのパフォーマンスを備えていることがわかります。
実際、LLMSのいずれも、すべてのタスクにわたって再現性のある精度を一貫して提供するものではなく、はるかに少ない出力文字列ではありません。
インサイダーと予備的な結果を共有すると、入力バッファーでの共ミングルデータを介して計算リソースの効率的な使用におそらく不可欠ではないことが明らかになったため、この問題はすぐに消えません。
観察をよりよく定量化するために、決定論の定量化に焦点を当てたメトリックを導入し、Nでの合計契約率についてはtarr@nが生の出力を超えており、tara@nは、解決された回答の合計契約率について@nを紹介します。
私たちのコードとデータは、https://github.com/breckbaldwin/llm stabilityで公開されています。

要約(オリジナル)

LLM (large language model) practitioners commonly notice that outputs can vary for the same inputs under settings expected to be deterministic. Yet the questions of how pervasive this is, and with what impact on results, have not to our knowledge been systematically investigated. We investigate non-determinism in five LLMs configured to be deterministic when applied to eight common tasks in across 10 runs, in both zero-shot and few-shot settings. We see accuracy variations up to 15% across naturally occurring runs with a gap of best possible performance to worst possible performance up to 70%. In fact, none of the LLMs consistently delivers repeatable accuracy across all tasks, much less identical output strings. Sharing preliminary results with insiders has revealed that non-determinism perhaps essential to the efficient use of compute resources via co-mingled data in input buffers so this issue is not going away anytime soon. To better quantify our observations, we introduce metrics focused on quantifying determinism, TARr@N for the total agreement rate at N runs over raw output, and TARa@N for total agreement rate of parsed-out answers. Our code and data are publicly available at https://github.com/breckbaldwin/llm-stability.

arxiv情報

著者 Berk Atil,Sarp Aykent,Alexa Chittams,Lisheng Fu,Rebecca J. Passonneau,Evan Radcliffe,Guru Rajan Rajagopal,Adam Sloan,Tomasz Tudrej,Ferhan Ture,Zhe Wu,Lixinyu Xu,Breck Baldwin
発行日 2025-04-02 15:17:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SE パーマリンク