Solving Zebra Puzzles Using Constraint-Guided Multi-Agent Systems

要約

これまでの研究により、思考連鎖の促進や記号表現の導入などの手法を使用して論理パズルを解く大規模言語モデル (LLM) の能力が強化されてきました。
これらのフレームワークは、自然言語の手がかりを論理ステートメントに変換する固有の複雑さのため、ゼブラ パズルなどの複雑な論理問題を解決するにはまだ不十分です。
LLM と既製の定理証明器を統合するマルチエージェント システム ZPS を紹介します。
このシステムは、問題を小さく管理しやすい部分に分解し、定理証明器で問題を解くための SMT (Satisfiability Modulo Theories) コードを生成し、エージェント間のフィードバックを使用して繰り返し答えを改善することで、複雑なパズル解決タスクに取り組みます。
また、パズルの解決策の正しさを評価するために自動グリッド パズル グレーダーを導入し、ユーザー調査で評価することで自動グレーダーが信頼できることを示します。
私たちのアプローチでは、テストした 3 つの LLM すべてで改善が見られ、GPT-4 では完全に正しいソリューションの数が 166% 向上しました。

要約(オリジナル)

Prior research has enhanced the ability of Large Language Models (LLMs) to solve logic puzzles using techniques such as chain-of-thought prompting or introducing a symbolic representation. These frameworks are still usually insufficient to solve complicated logical problems, such as Zebra puzzles, due to the inherent complexity of translating natural language clues into logical statements. We introduce a multi-agent system, ZPS, that integrates LLMs with an off the shelf theorem prover. This system tackles the complex puzzle-solving task by breaking down the problem into smaller, manageable parts, generating SMT (Satisfiability Modulo Theories) code to solve them with a theorem prover, and using feedback between the agents to repeatedly improve their answers. We also introduce an automated grid puzzle grader to assess the correctness of our puzzle solutions and show that the automated grader is reliable by evaluating it in a user-study. Our approach shows improvement in all three LLMs we tested, with GPT-4 showing 166% improvement in the number of fully correct solutions.

arxiv情報

著者 Shmuel Berman,Kathleen McKeown,Baishakhi Ray
発行日 2024-07-09 14:47:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 68T01, 68T20, 68T27, cs.CL, cs.MA, I.2.11 パーマリンク