要約
言語モデル (LM) は、非常に複雑な言語タスクを実行できます。
ただし、数的推論は彼らが頻繁に苦労する分野です。
重要ではありますが、あまり評価されない推論形式は、確率分布を理解することです。
この論文では、理想的な統計分布と現実世界の統計分布を使用して、LM の確率的推論能力を評価することに焦点を当てます。
私たちは、パーセンタイルの推定、サンプルの描画、確率の計算という 3 つのタスクに関して、最先端の LM の体系的な評価を実行します。
LM にコンテキストを提供する 3 つの方法、1) 分布または分布ファミリー内からのアンカー例、2) 現実世界のコンテキスト、3) 正規近似の基礎となる要約統計量を評価します。
モデルは分布に関する推論を行うことができ、たとえこれらの仮定が間違っていたり指定が間違っていたとしても、現実世界のコンテキスト、サンプルショット、簡略化された仮定を組み込むことによってさらに支援することができます。
この作業を実施するために、私たちは関連する質問と回答のペアを含む包括的なベンチマーク分布データセットを開発し、公開しました。
要約(オリジナル)
Language models (LM) are capable of remarkably complex linguistic tasks; however, numerical reasoning is an area in which they frequently struggle. An important but rarely evaluated form of reasoning is understanding probability distributions. In this paper, we focus on evaluating the probabilistic reasoning capabilities of LMs using idealized and real-world statistical distributions. We perform a systematic evaluation of state-of-the-art LMs on three tasks: estimating percentiles, drawing samples, and calculating probabilities. We evaluate three ways to provide context to LMs 1) anchoring examples from within a distribution or family of distributions, 2) real-world context, 3) summary statistics on which to base a Normal approximation. Models can make inferences about distributions, and can be further aided by the incorporation of real-world context, example shots and simplified assumptions, even if these assumptions are incorrect or misspecified. To conduct this work, we developed a comprehensive benchmark distribution dataset with associated question-answer pairs that we have released publicly.
arxiv情報
著者 | Akshay Paruchuri,Jake Garrison,Shun Liao,John Hernandez,Jacob Sunshine,Tim Althoff,Xin Liu,Daniel McDuff |
発行日 | 2024-09-30 11:15:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google