AI-Augmented Predictions: LLM Assistants Improve Human Forecasting Accuracy

要約

大規模言語モデル (LLM) は、多くの領域で人間のパフォーマンスに匹敵し、場合によってはそれを超える優れた機能を示します。
この研究では、タスクの予測における判断力を強化する LLM の可能性を探ります。
私たちは 2 つの GPT-4-Turbo アシスタントの予測精度への影響を評価しました。1 つは高品質のアドバイス (「スーパー予測」) を提供するように設計されており、もう 1 つは自信過剰で基本レートを無視するように設計されています。
参加者 (N = 991) には、直接の予測サポートなしであまり高度ではないモデル (DaVinci-003) を使用した対照グループとは対照的に、研究全体を通じて割り当てられた LLM アシスタントに相談するオプションがありました。
事前に登録した分析により、LLM 拡張により、対照グループと比較して、両方のタイプのアシスタントで予測精度が 23% 大幅に向上することが明らかになりました。
この改善は、スーパー予測アシスタントの予測精度が向上したにもかかわらず発生しており、拡張の利点がモデルの予測精度だけによるものではないことを示しています。
探索的分析では、1 つの予測項目で顕著な効果が示されましたが、それがなければ、バイアス付きアシスタントの 28% と比較して、スーパー予測アシスタントの精度は 43% 向上したことがわかりました。
さらに、LLM の拡張がスキルの低い予報者に不釣り合いに利益をもたらすのか、予測の多様性を減少させて群衆の知恵を低下させるのか、それとも質問の難易度によって有効性が変化するのかを検討します。
私たちの調査結果は、これらの仮説を一貫して裏付けているわけではありません。
私たちの結果は、たとえ偏ったものであっても LLM アシスタントへのアクセスが、対話時点では答えが分からない認知的に要求の高いタスクにおいて有益な意思決定支援となる可能性があることを示唆しています。

要約(オリジナル)

Large language models (LLMs) show impressive capabilities, matching and sometimes exceeding human performance in many domains. This study explores the potential of LLMs to augment judgement in forecasting tasks. We evaluated the impact on forecasting accuracy of two GPT-4-Turbo assistants: one designed to provide high-quality advice (‘superforecasting’), and the other designed to be overconfident and base-rate-neglecting. Participants (N = 991) had the option to consult their assigned LLM assistant throughout the study, in contrast to a control group that used a less advanced model (DaVinci-003) without direct forecasting support. Our preregistered analyses reveal that LLM augmentation significantly enhances forecasting accuracy by 23% across both types of assistants, compared to the control group. This improvement occurs despite the superforecasting assistant’s higher accuracy in predictions, indicating the augmentation’s benefit is not solely due to model prediction accuracy. Exploratory analyses showed a pronounced effect in one forecasting item, without which we find that the superforecasting assistant increased accuracy by 43%, compared with 28% for the biased assistant. We further examine whether LLM augmentation disproportionately benefits less skilled forecasters, degrades the wisdom-of-the-crowd by reducing prediction diversity, or varies in effectiveness with question difficulty. Our findings do not consistently support these hypotheses. Our results suggest that access to an LLM assistant, even a biased one, can be a helpful decision aid in cognitively demanding tasks where the answer is not known at the time of interaction.

arxiv情報

著者 Philipp Schoenegger,Peter S. Park,Ezra Karger,Philip E. Tetlock
発行日 2024-02-12 18:14:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG パーマリンク