要約
思考連鎖 (CoT) プロンプトは、大規模言語モデル (LLM) およびマルチモーダル大規模言語モデル (MLLM) における複雑な推論を強化するのに非常に効果的であることが証明されています。
しかし、複雑な空間推論タスクでは苦労します。
それにもかかわらず、人間の認識は言語のみを超えて拡張され、言葉と画像の両方で思考する驚くべき能力を可能にします。
このメカニズムに触発されて、私たちは新しい推論パラダイム、Multimodal Visualization-of-Thought (MVoT) を提案します。
推論トレースの画像視覚化を生成することで、MLLM での視覚的思考を可能にします。
高品質の視覚化を保証するために、自己回帰 MLLM にトークンの不一致損失を導入します。
この革新により、視覚的な一貫性と忠実性の両方が大幅に向上しました。
いくつかの動的空間推論タスクを通じてこのアプローチを検証します。
実験結果から、MVoT がタスク間で競争力のあるパフォーマンスを発揮することが明らかになりました。
さらに、CoT が失敗する最も困難なシナリオでも、堅牢で信頼性の高い改善が見られます。
最終的に、MVoT は、視覚的思考が言葉による推論を効果的に補完できる、複雑な推論タスクの新しい可能性を確立します。
要約(オリジナル)
Chain-of-Thought (CoT) prompting has proven highly effective for enhancing complex reasoning in Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs). Yet, it struggles in complex spatial reasoning tasks. Nonetheless, human cognition extends beyond language alone, enabling the remarkable capability to think in both words and images. Inspired by this mechanism, we propose a new reasoning paradigm, Multimodal Visualization-of-Thought (MVoT). It enables visual thinking in MLLMs by generating image visualizations of their reasoning traces. To ensure high-quality visualization, we introduce token discrepancy loss into autoregressive MLLMs. This innovation significantly improves both visual coherence and fidelity. We validate this approach through several dynamic spatial reasoning tasks. Experimental results reveal that MVoT demonstrates competitive performance across tasks. Moreover, it exhibits robust and reliable improvements in the most challenging scenarios where CoT fails. Ultimately, MVoT establishes new possibilities for complex reasoning tasks where visual thinking can effectively complement verbal reasoning.
arxiv情報
著者 | Chengzu Li,Wenshan Wu,Huanyu Zhang,Yan Xia,Shaoguang Mao,Li Dong,Ivan Vulić,Furu Wei |
発行日 | 2025-01-13 18:23:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google