UBENCH: Benchmarking Uncertainty in Large Language Models with Multiple Choice Questions

要約

大規模言語モデル (LLM) の急速な開発により、有望な実用的な結果が示されています。
ただし、解釈可能性が低いため、予期せぬ状況でエラーが発生することが多く、実用性が制限されます。
多くの研究は包括的な評価システムの作成に焦点を当ててきましたが、これまでのベンチマークは主に問題解決能力を評価し、応答の不確実性が無視されていたため、信頼性が低くなる可能性がありました。
LLM の信頼性を測定する最近の方法はリソースを大量に消費するため、ブラックボックス モデルをテストできません。
これに対処するために、LLM の信頼性を評価するための包括的なベンチマークである UBENCH を提案します。
UBENCH には、知識、言語、理解、推論能力をカバーする 3,978 個の多肢選択問題が含まれています。
実験結果は、UBENCH が最先端のパフォーマンスを達成しながら、その単一サンプリング手法が複数のサンプリングを必要とするベースライン手法と比較して計算リソースを大幅に節約することを示しています。
さらに、UBENCH に基づいて、15 の人気のある LLM の信頼性を評価したところ、GLM4 が最も優れており、それに僅差で GPT-4 が続くことがわかりました。
また、思考連鎖プロンプト、ロールプレイング プロンプト、オプションの順序、および温度が LLM の信頼性に及ぼす影響を調査し、さまざまな LLM に対するさまざまな影響を分析します。

要約(オリジナル)

The rapid development of large language models (LLMs) has shown promising practical results. However, their low interpretability often leads to errors in unforeseen circumstances, limiting their utility. Many works have focused on creating comprehensive evaluation systems, but previous benchmarks have primarily assessed problem-solving abilities while neglecting the response’s uncertainty, which may result in unreliability. Recent methods for measuring LLM reliability are resource-intensive and unable to test black-box models. To address this, we propose UBENCH, a comprehensive benchmark for evaluating LLM reliability. UBENCH includes 3,978 multiple-choice questions covering knowledge, language, understanding, and reasoning abilities. Experimental results show that UBENCH has achieved state-of-the-art performance, while its single-sampling method significantly saves computational resources compared to baseline methods that require multiple samplings. Additionally, based on UBENCH, we evaluate the reliability of 15 popular LLMs, finding GLM4 to be the most outstanding, closely followed by GPT-4. We also explore the impact of Chain-of-Thought prompts, role-playing prompts, option order, and temperature on LLM reliability, analyzing the varying effects on different LLMs.

arxiv情報

著者 Xunzhi Wang,Zhuowei Zhang,Qiongyu Li,Gaonan Chen,Mengting Hu,Zhiyu li,Bitong Luo,Hang Gao,Zhixin Han,Haotian Wang
発行日 2024-06-18 16:50:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク