RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios

要約

このペーパーでは、Rulearenaを紹介します。これは、推論において複雑で実世界のルールに従う大規模な言語モデル(LLM)の能力を評価するために設計された斬新で挑戦的なベンチマークです。
航空会社の手荷物料金、NBA取引、税制規制の3つの実用的なドメインをカバーしているRuleAnaは、長いコンテキストの理解、論理的推論、正確な数学的計算を要求する複雑な自然言語の指示を処理するLLMSの習熟度を評価します。
2つの重要な属性は、RuleAnaを従来のルールベースの推論ベンチマークと区別します。(1)標準の1次ロジック表現を超えて拡張し、(2)本物の実用的なシナリオに基づいており、実際のアプリケーションのLLMの適合性と信頼性に関する洞察を提供します。
私たちの調査結果は、LLMSのいくつかの顕著な制限を明らかにしています。(1)適切な規則を特定して適用するのに苦労し、同様の明確な規制で混乱することがよくあります。
また、LLMにOracle MathおよびLogic操作のための外部ツールが提供されている場合、大幅なパフォーマンスが向上します。
これらの結果は、実際のアプリケーションにおけるLLMSのルール誘導推論能力を進める際の重要な課題と有望な研究方向を強調しています。
私たちのコードとデータは、https://github.com/skyriver-2000/rulearenaで公開されています。

要約(オリジナル)

This paper introduces RuleArena, a novel and challenging benchmark designed to evaluate the ability of large language models (LLMs) to follow complex, real-world rules in reasoning. Covering three practical domains — airline baggage fees, NBA transactions, and tax regulations — RuleArena assesses LLMs’ proficiency in handling intricate natural language instructions that demand long-context understanding, logical reasoning, and accurate mathematical computation. Two key attributes distinguish RuleArena from traditional rule-based reasoning benchmarks: (1) it extends beyond standard first-order logic representations, and (2) it is grounded in authentic, practical scenarios, providing insights into the suitability and reliability of LLMs for real-world applications. Our findings reveal several notable limitations in LLMs: (1) they struggle to identify and apply the appropriate rules, frequently becoming confused by similar but distinct regulations, (2) they cannot consistently perform accurate mathematical computations, even when they correctly identify the relevant rules, and (3) in general, they perform poorly in the benchmark. We also observe a significant performance boost when LLMs are provided with external tools for oracle math and logic operations. These results highlight significant challenges and promising research directions in advancing LLMs’ rule-guided reasoning capabilities in real-life applications. Our codes and data are publicly available on https://github.com/skyriver-2000/RuleArena.

arxiv情報

著者 Ruiwen Zhou,Wenyue Hua,Liangming Pan,Sitao Cheng,Xiaobao Wu,En Yu,William Yang Wang
発行日 2025-05-30 17:43:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク