要約
大規模言語モデル (LLM) は、多くの領域で人間のパフォーマンスに匹敵し、場合によっては人間のパフォーマンスを上回ります。
この研究では、予測タスクにおける人間の判断を強化する LLM の可能性を調査します。
我々は、2 つの LLM アシスタントの人間の予報担当者への影響を評価します。1 つは高品質の (「スーパー予測」) アドバイスを提供するように設計されており、もう 1 つは自信過剰で基本レートを無視するように設計されており、ノイズの多い予測アドバイスを提供します。
これらのアシスタントを使用する参加者を、数値予測を提供しなかった、または予測についての明示的な議論に参加しなかった、あまり高度ではないモデルを受け取った対照グループと比較します。
参加者 (N = 991) は 6 つの予測質問に回答し、割り当てられた LLM アシスタントに最初から最後まで相談するオプションがありました。
事前に登録した分析では、各フロンティア LLM アシスタントと対話することで、対照グループと比較して予測精度が 24 ~ 28 パーセント大幅に向上することが示されています。
探索的分析では、1 つの予測項目で顕著な外れ値効果が示されましたが、それがなければ、スーパー予測アシスタントの方が精度が 41 パーセント向上したのに対し、ノイズの多いアシスタントでは 29 パーセント向上したことがわかりました。
さらに、LLM 予測の拡張がスキルの低い予測者に不釣り合いに利益をもたらすのか、予測の多様性を減らすことで群衆の知恵を低下させるのか、質問の難易度によって有効性が変化するのかを検討します。
私たちのデータはこれらの仮説を一貫して裏付けているわけではありません。
私たちの結果は、たとえ騒々しいものであっても、フロンティア LLM アシスタントへのアクセスは、特定の予測アドバイスを提供しない非強力なモデルと比較して、認知的に要求の高いタスクにおいて有益な意思決定支援となる可能性があることを示唆しています。
ただし、外れ値の影響は、このパターンの堅牢性についてさらなる研究が必要であることを示唆しています。
要約(オリジナル)
Large language models (LLMs) match and sometimes exceeding human performance in many domains. This study explores the potential of LLMs to augment human judgement in a forecasting task. We evaluate the effect on human forecasters of two LLM assistants: one designed to provide high-quality (‘superforecasting’) advice, and the other designed to be overconfident and base-rate neglecting, thus providing noisy forecasting advice. We compare participants using these assistants to a control group that received a less advanced model that did not provide numerical predictions or engaged in explicit discussion of predictions. Participants (N = 991) answered a set of six forecasting questions and had the option to consult their assigned LLM assistant throughout. Our preregistered analyses show that interacting with each of our frontier LLM assistants significantly enhances prediction accuracy by between 24 percent and 28 percent compared to the control group. Exploratory analyses showed a pronounced outlier effect in one forecasting item, without which we find that the superforecasting assistant increased accuracy by 41 percent, compared with 29 percent for the noisy assistant. We further examine whether LLM forecasting augmentation disproportionately benefits less skilled forecasters, degrades the wisdom-of-the-crowd by reducing prediction diversity, or varies in effectiveness with question difficulty. Our data do not consistently support these hypotheses. Our results suggest that access to a frontier LLM assistant, even a noisy one, can be a helpful decision aid in cognitively demanding tasks compared to a less powerful model that does not provide specific forecasting advice. However, the effects of outliers suggest that further research into the robustness of this pattern is needed.
arxiv情報
著者 | Philipp Schoenegger,Peter S. Park,Ezra Karger,Sean Trott,Philip E. Tetlock |
発行日 | 2024-08-22 13:57:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google