PuzzleWorld: A Benchmark for Multimodal, Open-Ended Reasoning in Puzzlehunts

要約

Puzzlehuntsは、明確に定義された問題の定義を欠いている複雑でマルチステップのパズルのジャンルです。
明確な指示を持つタスクで構成される従来の推論ベンチマークとは対照的に、パズルハントは、科学的発見、探索的データ分析、調査問題解決などの現実世界ドメインを反映した、マルチモーダルの証拠と反復的な推論からの根本的な問題構造を発見するためのモデルを必要とします。
基礎モデルの最近の進歩にもかかわらず、このようなオープンエンドの設定でのパフォーマンスはほとんどテストされていません。
このペーパーでは、段階的、オープンエンド、そして創造的なマルチモーダル推論を評価するために設計された667パズルハントスタイルの問題の大規模なベンチマークであるPuzzleWorldを紹介します。
各パズルには、最終的なソリューション、詳細な推論トレース、および認知スキルラベルが注釈が付けられ、全体的なベンチマークと細かい診断分析を可能にします。
最先端のほとんどのモデルは、最終回答の精度が1〜2%しか達成されておらず、最高のモデルはパズルの14%のみを解き、40%の段階的精度に達します。
推論の注釈の価値を示すために、推論トレースに関する小さなモデルを微調整すると、4%から11%に段階的な推論が改善され、最終回答だけでのトレーニングがパフォーマンスをほぼゼロに分解することを示します。
私たちのエラー分析により、現在のモデルは近視の推論を示し、言語ベースの推論の制限によってボトルネックされており、視覚的および空間的推論に不可欠なスケッチ能力が欠けていることが明らかになりました。
https://github.com/mit-mi/puzzleworldでPuzzleworldをリリースして、より一般的な、オープンエンド、そして創造的な推論システムの構築に関する将来の作業をサポートしています。

要約(オリジナル)

Puzzlehunts are a genre of complex, multi-step puzzles lacking well-defined problem definitions. In contrast to conventional reasoning benchmarks consisting of tasks with clear instructions, puzzlehunts require models to discover the underlying problem structure from multimodal evidence and iterative reasoning, mirroring real-world domains such as scientific discovery, exploratory data analysis, or investigative problem-solving. Despite recent progress in foundation models, their performance on such open-ended settings remains largely untested. In this paper, we introduce PuzzleWorld, a large-scale benchmark of 667 puzzlehunt-style problems designed to assess step-by-step, open-ended, and creative multimodal reasoning. Each puzzle is annotated with the final solution, detailed reasoning traces, and cognitive skill labels, enabling holistic benchmarking and fine-grained diagnostic analysis. Most state-of-the-art models achieve only 1-2% final answer accuracy, with the best model solving only 14% of puzzles and reaching 40% stepwise accuracy. To demonstrate the value of our reasoning annotations, we show that fine-tuning a small model on reasoning traces improves stepwise reasoning from 4% to 11%, while training on final answers alone degrades performance to near zero. Our error analysis reveals that current models exhibit myopic reasoning, are bottlenecked by the limitations of language-based inference, and lack sketching capabilities crucial for visual and spatial reasoning. We release PuzzleWorld at https://github.com/MIT-MI/PuzzleWorld to support future work on building more general, open-ended, and creative reasoning systems.

arxiv情報

著者 Hengzhi Li,Brendon Jiang,Alexander Naehu,Regan Song,Justin Zhang,Megan Tjandrasuwita,Chanakya Ekbote,Steven-Shine Chen,Adithya Balachandran,Wei Dai,Rebecca Chang,Paul Pu Liang
発行日 2025-06-06 16:17:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク