要約
大規模言語モデル (LLM) の即時最適化アルゴリズムは、複数ステップの推論には優れていますが、依然として効果的な不確実性推定が不足しています。
このペーパーでは、回答、正しさ、偶然性、認識上の不確実性に焦点を当て、不確実性のメトリクスを評価するためのベンチマーク データセットを紹介します。
GPT-3.5-Turbo や Meta-Llama-3.1-8B-Instruct などのモデルの分析を通じて、現在のメトリクスは正解の不確実性よりも、出力の信頼性と多様性を反映する回答の不確実性とより一致していることを示し、メトリクスの改善の必要性を強調しています。
これは、プロンプト最適化をより適切にガイドするために最適化の目的を意識したものです。
私たちのコードとデータセットは https://github.com/0Frett/PO-Uncertainty-Benchmarking で入手できます。
要約(オリジナル)
Prompt optimization algorithms for Large Language Models (LLMs) excel in multi-step reasoning but still lack effective uncertainty estimation. This paper introduces a benchmark dataset to evaluate uncertainty metrics, focusing on Answer, Correctness, Aleatoric, and Epistemic Uncertainty. Through analysis of models like GPT-3.5-Turbo and Meta-Llama-3.1-8B-Instruct, we show that current metrics align more with Answer Uncertainty, which reflects output confidence and diversity, rather than Correctness Uncertainty, highlighting the need for improved metrics that are optimization-objective-aware to better guide prompt optimization. Our code and dataset are available at https://github.com/0Frett/PO-Uncertainty-Benchmarking.
arxiv情報
著者 | Pei-Fu Guo,Yun-Da Tsai,Shou-De Lin |
発行日 | 2024-09-16 07:13:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google