Can We Count on LLMs? The Fixed-Effect Fallacy and Claims of GPT-4 Capabilities

要約

このペーパーでは、LLM 機能の評価について検討します。
いくつかの決定論的タスクにおける GPT-4 パフォーマンスの測定結果を示します。
各タスクには基本的な計算が含まれ、明確に定義された大規模な母集団から抽出されたいくつかの要素を入力パラメータとして受け取ります (リスト内の要素を数える、2 つの k 桁の数値を乗算するなど)。
タスクごとにいくつかの条件を検査し、統計的に有意な差が検出できるように十分な試行を実行します。
これにより、クエリのフレーズと入力パラメータの母集団の両方に対するタスクの精度の感度を調査することができます。
タスクプロンプトまたは入力母集団における一見些細な変更によって、サンプリング効果で説明できるよりもはるかに大きな差異が生じる可能性があることがわかりました。
たとえば、単純なリストを数えるタスクのパフォーマンスは、クエリのフレーズやリストの長さによって異なりますが、リストの構成 (つまり、数えられるもの) やオブジェクトの頻度 (要素が考慮される場合の成功など) によっても異なります。
リストの $\およそ$ 50\% は、$\およそ$ 70\% を占める場合とは異なります。など)。
私たちは、LLM の機能を定量化する取り組みは、実験的観察がデータが裏付けるものを超えて不適切に一般化される、固定効果としての言語の誤謬に簡単に屈してしまうと結論付けています。
その結果、人間との対話に基づいて形成された直感は、どの入力変更が LLM のパフォーマンスに「影響を与えない」べきかについて、非常に信頼性の低いガイドを形成するようです。

要約(オリジナル)

In this paper we explore evaluation of LLM capabilities. We present measurements of GPT-4 performance on several deterministic tasks; each task involves a basic calculation and takes as input parameter some element drawn from a large well-defined population (e.g., count elements in a list, multiply two k-digit numbers, etc). We examine several conditions per-task and perform enough trials so that statistically significant differences can be detected. This allows us to investigate the sensitivity of task-accuracy both to query phrasing and input parameter population. We find that seemingly trivial modifications in the task-prompt or input population can yield differences far larger than can be explained by sampling effects. For example, performance on a simple list-counting task varies with query-phrasing and list-length, but also with list composition (i.e., the thing-to-be-counted) and object frequency (e.g., success when an element accounts for $\approx$ 50\% of a list is different from when it accounts for $\approx$ 70\% etc). We conclude that efforts to quantify LLM capabilities easily succumb to the language-as-fixed-effect fallacy, where experimental observations are improperly generalized beyond what the data supports. A consequence appears to be that intuitions that have been formed based on interactions with humans form a very unreliable guide as to which input modifications should “make no difference” to LLM performance.

arxiv情報

著者 Thomas Ball,Shuo Chen,Cormac Herley
発行日 2024-09-24 17:34:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク