要約
マルチモーダルの大手言語モデルは、多様なドメイン全体に優れていますが、複雑な視覚的推論タスクに苦労しています。
現在のアプローチは、明示的な検索方法とトレーニング後のテクニックの2つの戦略を介して構造化された思考を組み込むことを目的としています。
ただし、どちらのアプローチも大きな制限に直面しています。検索ベースの方法は、広範なソリューションスペース探索により計算の非効率性に苦しんでいますが、トレーニング後の方法にはかなりのデータ、計算リソースが必要であり、トレーニングの不安定性が必要です。
これらの制限に対処するために、astar、\ textbf {a} utomated \ textbf {s} tructured \ textbf {t} hink for multimod \ textbf {a} l \ textbf {r}ヨーロンを提案します。
私たちの方法では、モンテカルロツリー検索を使用して500の以前のサンプルから抽象化された高レベルの推論パターンの軽量ライブラリである「思考カード」を紹介します。
各テストの問題について、Astarは最適な思考カードを適応的に取得し、これらの外部の明示的なガイドラインをモデルの内部暗黙の推論機能とシームレスに統合します。
広範な実験では、ASTARの有効性と効率性が示されています。これは、500個の以前のサンプルと7Bバックボーンのみを使用して、Training Free Frameworkは、Mathvision(GPT-4Oの30.4%と対戦)で53.9 $ \%$の精度(GPT-4Oの30.4%)で32.7%を達成します。
さらなる分析により、Astarはマルチモーダル推論を超えて視覚的認識と理解のドメインに一般化し、GRPOなどの主流のトレーニング後の手法と互換性のあるプラグアンドプレイテスト時間推論方法として機能します。
要約(オリジナル)
Multimodal large language models excel across diverse domains but struggle with complex visual reasoning tasks. Current approaches aim to incorporate structured thinking via two strategies: explicit search methods and post-training techniques. However, both approaches face significant limitations: Search-based methods suffer from computational inefficiency due to extensive solution space exploration, while post-training methods require substantial data, computational resources, and often encounter training instability. To address these limitations, we propose AStar, an \textbf{A}utomated \textbf{S}tructured \textbf{t}hinking paradigm for multimod\textbf{a}l \textbf{r}easoning. Our method introduces ‘thought cards’, a lightweight library of high-level reasoning patterns abstracted from 500 prior samples using Monte Carlo Tree Search. For each test problem, AStar adaptively retrieves the optimal thought cards and seamlessly integrates these external explicit guidelines with the model’s internal implicit reasoning capabilities. Extensive experiments demonstrate AStar’s effectiveness and efficiency: using only 500 prior samples and a 7B backbone, our training-free framework achieves 53.9$\%$ accuracy on MathVerse (surpassing GPT-4o’s 50.2%) and 32.7% on MathVision (versus GPT-4o’s 30.4%). Further analysis reveals that AStar generalizes beyond multimodal reasoning to visual perception and understanding domains, and serves as a plug-and-play test-time inference method compatible with mainstream post-training techniques like GRPO.
arxiv情報
著者 | Jinyang Wu,Mingkuan Feng,Shuai Zhang,Fangrui Lv,Ruihan Jin,Feihu Che,Zengqi Wen,Jianhua Tao |
発行日 | 2025-05-30 17:53:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google