Advancing Spatial Reasoning in Large Language Models: An In-Depth Evaluation and Enhancement Using the StepGame Benchmark

要約

人工知能 (AI) はさまざまな分野で目覚ましい進歩を遂げており、ChatGPT のような大規模言語モデルは人間のようなテキスト生成機能で大きな注目を集めています。
これらの成果にもかかわらず、空間推論はこれらのモデルにとって依然として大きな課題です。
StepGame のようなベンチマークは AI 空間推論を評価しますが、ChatGPT では満足のいくパフォーマンスが得られませんでした。
ただし、ベンチマークにテンプレート エラーが存在すると、評価結果に影響します。
したがって、これらのテンプレート エラーが解決された場合、ChatGPT のパフォーマンスが向上し、その空間推論機能のより正確な評価につながる可能性があります。
この研究では、StepGame ベンチマークを改良し、モデル評価のためのより正確なデータセットを提供します。
修正されたベンチマークで GPT の空間推論パフォーマンスを分析し、自然言語テキストを空間関係にマッピングする能力は高いが、マルチホップ推論には限界があることを特定します。
テンプレートからリレーションへのマッピングとロジックベースの推論を組み合わせることで、ベンチマークに対する完璧なソリューションを提供します。
この組み合わせは、エラーが発生することなく StepGame で定性的推論を実行できる熟練度を示しています。
次に、空間推論における GPT モデルの制限について説明します。
私たちは思考連鎖と思考ツリーを促す戦略を展開し、GPT の「認知プロセス」についての洞察を提供し、精度の大幅な向上を達成します。
私たちの調査は、モデルの欠陥を明らかにするだけでなく、機能強化も提案し、より堅牢な空間推論機能を備えた AI の進歩に貢献します。

要約(オリジナル)

Artificial intelligence (AI) has made remarkable progress across various domains, with large language models like ChatGPT gaining substantial attention for their human-like text-generation capabilities. Despite these achievements, spatial reasoning remains a significant challenge for these models. Benchmarks like StepGame evaluate AI spatial reasoning, where ChatGPT has shown unsatisfactory performance. However, the presence of template errors in the benchmark has an impact on the evaluation results. Thus there is potential for ChatGPT to perform better if these template errors are addressed, leading to more accurate assessments of its spatial reasoning capabilities. In this study, we refine the StepGame benchmark, providing a more accurate dataset for model evaluation. We analyze GPT’s spatial reasoning performance on the rectified benchmark, identifying proficiency in mapping natural language text to spatial relations but limitations in multi-hop reasoning. We provide a flawless solution to the benchmark by combining template-to-relation mapping with logic-based reasoning. This combination demonstrates proficiency in performing qualitative reasoning on StepGame without encountering any errors. We then address the limitations of GPT models in spatial reasoning. We deploy Chain-of-thought and Tree-of-thoughts prompting strategies, offering insights into GPT’s “cognitive process’, and achieving remarkable improvements in accuracy. Our investigation not only sheds light on model deficiencies but also proposes enhancements, contributing to the advancement of AI with more robust spatial reasoning capabilities.

arxiv情報

著者 Fangjun Li,David C. Hogg,Anthony G. Cohn
発行日 2024-01-08 16:13:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LO パーマリンク