VisEscape: A Benchmark for Evaluating Exploration-driven Decision-making in Virtual Escape Rooms

要約

エスケープルームは、探査主導の計画を要求するユニークな認知的課題を提示します。プレイヤーは環境を積極的に検索し、新しい発見に基づいて知識を継続的に更新し、異なる手がかりをつなぎ、どの要素が目標に関連しているかを判断する必要があります。
これに動機付けられているため、これらの困難な条件下でAIモデルを評価するために特別に設計された20の仮想エスケープルームのベンチマークであるVisescapeを紹介します。成功は、孤立したパズルの解決に依存するだけでなく、動的に変化する環境の空間的知識を繰り返し構築および改良することにも依存します。
Visescapeでは、最先端のマルチモーダルモデルでさえ、一般に部屋から逃げられず、進捗状況と軌跡のレベルにかなりのばらつきを示すことが観察されました。
この問題に対処するために、viseScaperを提案します。これは、メモリ、フィードバック、およびReactモジュールを効果的に統合し、平均で3.7倍の効果的なパフォーマンスと5.0倍効率を上げることで大幅な改善を実証します。

要約(オリジナル)

Escape rooms present a unique cognitive challenge that demands exploration-driven planning: players should actively search their environment, continuously update their knowledge based on new discoveries, and connect disparate clues to determine which elements are relevant to their objectives. Motivated by this, we introduce VisEscape, a benchmark of 20 virtual escape rooms specifically designed to evaluate AI models under these challenging conditions, where success depends not only on solving isolated puzzles but also on iteratively constructing and refining spatial-temporal knowledge of a dynamically changing environment. On VisEscape, we observed that even state-of-the-art multimodal models generally fail to escape the rooms, showing considerable variation in their levels of progress and trajectories. To address this issue, we propose VisEscaper, which effectively integrates Memory, Feedback, and ReAct modules, demonstrating significant improvements by performing 3.7 times more effectively and 5.0 times more efficiently on average.

arxiv情報

著者 Seungwon Lim,Sungwoong Kim,Jihwan Yu,Sungjae Lee,Jiwan Chung,Youngjae Yu
発行日 2025-03-18 16:59:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク