Robustness Assessment of Mathematical Reasoning in the Presence of Missing and Contradictory Conditions

要約

大規模言語モデル (LLM) は、推論タスクで優れたパフォーマンスを示しており、数回のプロンプト手法によってさらに向上させることができます。
ただし、現在の評価は主に慎重に構築されたベンチマークに焦点を当てており、不明確な問題として知られる、欠落した矛盾した条件を提示する現実世界の推論問題の検討を無視しています。
私たちの観察によれば、既存の数発のプロンプト技術はそのようなシナリオでは効果がなく、自信過剰な答えや幻覚を与えることがよくあります。
この問題をさらに研究するために、欠落条件と矛盾条件の問題 (PMC) と呼ばれるベンチマークを開発し、これらのシナリオにおける少数ショット プロンプト手法のパフォーマンスを評価するための 2 つの新しい指標を導入します。
PMC ベンチマークを使用した分析により、明確に定義された問題に対する数学的推論のパフォーマンスと、明確に定義されていない問題を認識する能力との間のトレードオフのジレンマが明らかになりました。
PMC によってもたらされる課題に対処するために、SMT-LIB プロンプティング (SLP) と呼ばれる新しい少数ショット プロンプト方法を提案します。これは、問題を直接解決するのではなく、SMT-LIB 言語を利用して問題をモデル化します。
続いて、ダブルチェック解決戦略により、解決策の満足性と一意性がチェックされ、最終的なフィードバックが提供されます。
広範な実験により、条件が欠落している問題や矛盾した条件を扱う場合、既存の少数ショット プロンプト手法と比較して、当社の SLP アプローチの優位性が実証されています。
今後の研究を促進するために、ベンチマークとコードをオープンソース化します。

要約(オリジナル)

Large language models (LLMs) have demonstrated impressive performance on reasoning tasks, which can be further improved through few-shot prompting techniques. However, the current evaluation primarily focuses on carefully constructed benchmarks and neglects the consideration of real-world reasoning problems that present missing and contradictory conditions, known as ill-defined problems. Our observations suggest that existing few-shot prompting techniques are ineffective in such scenarios, often providing overconfident answers or hallucination. To further study this problem, we develop a benchmark called Problems with Missing and Contradictory conditions (PMC) and introduce two novel metrics to evaluate the performance of few-shot prompting methods in these scenarios. Our analysis using the PMC benchmark reveals a trade-off dilemma between the performance of mathematical reasoning for well-defined problems and the ability to recognize ill-defined problems. To address the challenges posed by PMC, we propose a novel few-shot prompting method called SMT-LIB Prompting (SLP), which utilizes the SMT-LIB language to model the problems instead of solving them directly. Subsequently, a double-check solving strategy checks the satisfiability and uniqueness of the solution and provides final feedback. Extensive experiments demonstrate the superiority of our SLP approach compared to existing few-shot prompting methods when dealing with problems with missing and contradictory conditions. We will open-source our benchmark and code to facilitate future research.

arxiv情報

著者 Shi-Yu Tian,Zhi Zhou,Lin-Han Jia,Lan-Zhe Guo,Yu-Feng Li
発行日 2024-06-07 16:24:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク