要約
大規模言語モデル (LLM) は、言語理解とさまざまな推論タスクにおいて優れたパフォーマンスを示しています。
しかし、人間の認知の重要な側面である空間推論における彼らの能力は、比較的未解明のままです。
人間は、\textbf{心の目}として知られるプロセスを通じて、目に見えない物体や行動の精神的なイメージを作成する驚くべき能力を備えており、目に見えない世界の想像力を可能にします。
この認知能力に触発されて、私たちは思考の視覚化 (\textbf{VoT}) プロンプトを提案します。
VoT は、LLM の推論トレースを視覚化することで LLM の空間推論を引き出し、それによって後続の推論ステップをガイドすることを目的としています。
私たちは、自然言語ナビゲーション、ビジュアル ナビゲーション、2D グリッド ワールドでのビジュアル タイリングなどのマルチホップ空間推論タスクに VoT を採用しました。
実験結果は、VoT が LLM の空間推論能力を大幅に強化することを実証しました。
特に、VoT はこれらのタスクにおいて既存のマルチモーダル大規模言語モデル (MLLM) を上回りました。
VoT は LLM 上で驚くほどうまく機能しますが、空間推論を容易にする \textit{心的イメージ} を生成する機能は心の目のプロセスに似ており、MLLM での潜在的な実行可能性を示唆しています。
要約(オリジナル)
Large language models (LLMs) have exhibited impressive performance in language comprehension and various reasoning tasks. However, their abilities in spatial reasoning, a crucial aspect of human cognition, remain relatively unexplored. Human possess a remarkable ability to create mental images of unseen objects and actions through a process known as \textbf{the Mind’s Eye}, enabling the imagination of the unseen world. Inspired by this cognitive capacity, we propose Visualization-of-Thought (\textbf{VoT}) prompting. VoT aims to elicit spatial reasoning of LLMs by visualizing their reasoning traces, thereby guiding subsequent reasoning steps. We employed VoT for multi-hop spatial reasoning tasks, including natural language navigation, visual navigation, and visual tiling in 2D grid worlds. Experimental results demonstrated that VoT significantly enhances the spatial reasoning abilities of LLMs. Notably, VoT outperformed existing multimodal large language models (MLLMs) in these tasks. While VoT works surprisingly well on LLMs, the ability to generate \textit{mental images} to facilitate spatial reasoning resembles the mind’s eye process, suggesting its potential viability in MLLMs.
arxiv情報
著者 | Wenshan Wu,Shaoguang Mao,Yadong Zhang,Yan Xia,Li Dong,Lei Cui,Furu Wei |
発行日 | 2024-04-04 17:45:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google