要約
空間的推論は、人間の知性の基本的な側面です。
空間認知の重要な概念の1つは、基準の枠組み(for)です。これは、空間式の視点を識別します。
その重要性にもかかわらず、空間インテリジェンスを必要とするAIモデルでは限られた注目を集めています。
この領域では、専用のベンチマークが不足しており、大規模な言語モデル(LLMS)の詳細な評価があります。
この問題に対処するために、LLMSでの理解を評価するように設計された空間推論タスク(森林)ベンチマークに参照評価のフレームを紹介します。
フォレストを使用してテキストから画像へのモデルで理解とレイアウトの生成を必要とする質問に答える際にLLMSを評価します。
私たちの結果は、さまざまなLLMのクラスの異なる間で顕著なパフォーマンスギャップを明らかにし、テキストから画像の生成のための正確なレイアウトを生成する能力に影響を与えます。
これは、理解のための重要な欠点を強調しています。
理解のために改善するために、空間ガイド付きプロンプトを提案します。これにより、LLMSが重要な空間概念を抽出する能力が向上します。
提案された方法は、空間的推論タスク全体の全体的なパフォーマンスを改善します。
要約(オリジナル)
Spatial reasoning is a fundamental aspect of human intelligence. One key concept in spatial cognition is the Frame of Reference (FoR), which identifies the perspective of spatial expressions. Despite its significance, FoR has received limited attention in AI models that need spatial intelligence. There is a lack of dedicated benchmarks and in-depth evaluation of large language models (LLMs) in this area. To address this issue, we introduce the Frame of Reference Evaluation in Spatial Reasoning Tasks (FoREST) benchmark, designed to assess FoR comprehension in LLMs. We evaluate LLMs on answering questions that require FoR comprehension and layout generation in text-to-image models using FoREST. Our results reveal a notable performance gap across different FoR classes in various LLMs, affecting their ability to generate accurate layouts for text-to-image generation. This highlights critical shortcomings in FoR comprehension. To improve FoR understanding, we propose Spatial-Guided prompting, which improves LLMs ability to extract essential spatial concepts. Our proposed method improves overall performance across spatial reasoning tasks.
arxiv情報
著者 | Tanawan Premsri,Parisa Kordjamshidi |
発行日 | 2025-05-22 16:26:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google