Evaluating language models as risk scores

要約

現在の質問応答ベンチマークは、主に、実現可能な予測タスクの精度に焦点を当てています。
質問と回答キーを条件として、最も可能性の高いトークンがグラウンド トゥルースと一致しますか?
このようなベンチマークでは、必然的に、結果の不確実性を定量化する言語モデルの能力を評価できません。
この研究では、実現不可能な予測タスクのリスク スコアとして言語モデルを使用することに焦点を当てます。
言語モデルを使用してリスク スコアを体系的に生成し、米国国勢調査データ製品と比較して評価するソフトウェア パッケージである folktexts を紹介します。
柔軟な API により、さまざまなプロンプト スキーム、ローカルまたは Web でホストされるモデル、カスタム予測タスクの作成に使用できる多様な国勢調査列の使用が可能になります。
私たちは、5 つの自然テキスト ベンチマーク タスクにわたる 17 の最近の大規模言語モデルの統計的特性に対する一連の経験的洞察を通じて、民俗テキストの有用性を実証します。
多肢選択式の質問回答によって生成されたゼロショット リスク スコアは高い予測シグナルを持っていますが、大きく誤って調整されていることがわかりました。
基本モデルは一貫して結果の不確実性を過大評価しますが、指示調整モデルは不確実性を過小評価し、過信したリスク スコアを生成します。
実際、命令チューニングは、実際の基礎となるデータの不確実性に関係なく、回答の分布を二極化します。
逆に、口頭でモデルに確率推定値を問い合わせると、すべての命令調整モデルのキャリブレーションが大幅に向上します。
データの不確実性を定量化する能力のこうした違いは、実現可能な設定では明らかにすることができず、\folktexts がカバーする現在の評価エコシステムの盲点を浮き彫りにします。

要約(オリジナル)

Current question-answering benchmarks predominantly focus on accuracy in realizable prediction tasks. Conditioned on a question and answer-key, does the most likely token match the ground truth? Such benchmarks necessarily fail to evaluate language models’ ability to quantify outcome uncertainty. In this work, we focus on the use of language models as risk scores for unrealizable prediction tasks. We introduce folktexts, a software package to systematically generate risk scores using language models, and evaluate them against US Census data products. A flexible API enables the use of different prompting schemes, local or web-hosted models, and diverse census columns that can be used to compose custom prediction tasks. We demonstrate the utility of folktexts through a sweep of empirical insights into the statistical properties of 17 recent large language models across five natural text benchmark tasks. We find that zero-shot risk scores produced by multiple-choice question-answering have high predictive signal but are widely miscalibrated. Base models consistently overestimate outcome uncertainty, while instruction-tuned models underestimate uncertainty and produce over-confident risk scores. In fact, instruction-tuning polarizes answer distribution regardless of true underlying data uncertainty. Conversely, verbally querying models for probability estimates results in substantially improved calibration across all instruction-tuned models. These differences in ability to quantify data uncertainty cannot be revealed in realizable settings, and highlight a blind-spot in the current evaluation ecosystem that \folktexts covers.

arxiv情報

著者 André F. Cruz,Moritz Hardt,Celestine Mendler-Dünner
発行日 2024-09-17 17:03:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク