要約
意思決定支援ツールとしての大規模言語モデル (LLM) の可能性は、不確実性の下での意思決定という困難なタスクに直面することが多いビジネス、エンジニアリング、医学などの分野でますます研究されています。
この論文では、このようなタイプの意思決定の問題について LLM に直接指示すると、特に問題の複雑さが増すにつれて、悪い結果が生じる可能性があることを示します。
これらのタスクを支援するために、不確実な環境における意思決定の精度を高めるために設計されたフレームワークである DeLLMa (意思決定大規模言語モデル アシスタント) を提案します。
DeLLMa には、意思決定理論と効用理論の原則を利用して、推論時間推論のスケーリングにおける最近のベスト プラクティスを統合する複数ステップの推論手順が含まれており、正確で人間による監査が可能な意思決定プロセスを提供します。
私たちは複数の現実的な意思決定環境で手順を検証し、DeLLMa が主要な言語モデルの意思決定パフォーマンスを一貫して向上させ、競合する手法と比較して最大 40% の精度向上を達成できることを実証しました。
さらに、テスト時にコンピューティングをスケーリングするとパフォーマンスがどのように向上するかを示し、DELLMa のコンポーネントをベンチマークするために人間による評価を実行します。
要約(オリジナル)
The potential of large language models (LLMs) as decision support tools is increasingly being explored in fields such as business, engineering, and medicine, which often face challenging tasks of decision-making under uncertainty. In this paper, we show that directly prompting LLMs on these types of decision-making problems can yield poor results, especially as the problem complexity increases. To aid in these tasks, we propose DeLLMa (Decision-making Large Language Model assistant), a framework designed to enhance decision-making accuracy in uncertain environments. DeLLMa involves a multi-step reasoning procedure that integrates recent best practices in scaling inference-time reasoning, drawing upon principles from decision theory and utility theory, to provide an accurate and human-auditable decision-making process. We validate our procedure on multiple realistic decision-making environments, demonstrating that DeLLMa can consistently enhance the decision-making performance of leading language models, and achieve up to a 40% increase in accuracy over competing methods. Additionally, we show how performance improves when scaling compute at test time, and carry out human evaluations to benchmark components of DeLLMa.
arxiv情報
著者 | Ollie Liu,Deqing Fu,Dani Yogatama,Willie Neiswanger |
発行日 | 2024-10-11 17:43:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google