要約
大規模な言語モデル(LLMS)の一般的な能力の進歩により、情報検索の使用、および自動決定システムのコンポーネントとして使用されています。
これらのモデルにおける確率的推論の忠実な表現は、これらのタスクで信頼できる、説明可能で効果的なパフォーマンスを確保するために不可欠かもしれません。
LLMSが複雑な推論と十分に調整された不確実性の定量化を実行できることを示唆する以前の研究にもかかわらず、このクラスのモデルの現在のバージョンには、確率的信念の合理的で首尾一貫した表現を提供する能力がないことがわかります。
これを実証するために、不確定な真理値を持つクレームの新しいデータセットを導入し、不確実性の定量化のための多くの確立された手法を適用して、LLMの能力を測定して、確率的推論の基本的特性を順守します。
要約(オリジナル)
Advances in the general capabilities of large language models (LLMs) have led to their use for information retrieval, and as components in automated decision systems. A faithful representation of probabilistic reasoning in these models may be essential to ensure trustworthy, explainable and effective performance in these tasks. Despite previous work suggesting that LLMs can perform complex reasoning and well-calibrated uncertainty quantification, we find that current versions of this class of model lack the ability to provide rational and coherent representations of probabilistic beliefs. To demonstrate this, we introduce a novel dataset of claims with indeterminate truth values and apply a number of well-established techniques for uncertainty quantification to measure the ability of LLM’s to adhere to fundamental properties of probabilistic reasoning.
arxiv情報
著者 | Gabriel Freedman,Francesca Toni |
発行日 | 2025-04-18 11:50:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google