要約
この論文では、確率値によって明示的に定量化された不確実性を伴う情報を含むテキストを推論する際に、大規模言語モデル (LLM) が直面する課題について考察します。
このタイプの推論は、日常会話から医療上の意思決定に至るまで、さまざまな状況に関連します。
LLM の数学的推論能力は向上していますが、確率論的推論に関しては依然として大きな困難を示しています。
この問題に対処するために、LLM の確率論的推論機能をテストするために特別に設計された新しいデータセットであるベイズ言語推論データセット (BLInD) を導入します。
BLInD を使用して、確率論的推論を含むタスクに対する LLM の制限を調べます。
さらに、Python コード、確率的アルゴリズム、確率的論理プログラミングなど、問題をさまざまな形式的表現にマッピングするいくつかのプロンプト戦略を紹介します。
最後に、BLInD での手法の評価と、因果推論の質問応答データセットの適応を提供します。
私たちの実証結果は、複数の LLM に対して提案した戦略の有効性を強調しています。
要約(オリジナル)
This paper considers the challenges Large Language Models (LLMs) face when reasoning over text that includes information involving uncertainty explicitly quantified via probability values. This type of reasoning is relevant to a variety of contexts ranging from everyday conversations to medical decision-making. Despite improvements in the mathematical reasoning capabilities of LLMs, they still exhibit significant difficulties when it comes to probabilistic reasoning. To deal with this problem, we introduce the Bayesian Linguistic Inference Dataset (BLInD), a new dataset specifically designed to test the probabilistic reasoning capabilities of LLMs. We use BLInD to find out the limitations of LLMs for tasks involving probabilistic reasoning. In addition, we present several prompting strategies that map the problem to different formal representations, including Python code, probabilistic algorithms, and probabilistic logical programming. We conclude by providing an evaluation of our methods on BLInD and an adaptation of a causal reasoning question-answering dataset. Our empirical results highlight the effectiveness of our proposed strategies for multiple LLMs.
arxiv情報
著者 | Aliakbar Nafar,Kristen Brent Venable,Parisa Kordjamshidi |
発行日 | 2024-12-27 18:43:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google