Socratic-MCTS: Test-Time Visual Reasoning by Asking the Right Questions

要約

ビジョン言語モデル(VLMS)の最近の研究は、蒸留と強化学習を通じて、言語モデルで観察された成功に似た、暗黙の長い形式のチェーンの推論を装備する可能性を中心としています。
しかし、非合理的なモデルは、すでにインターネット上に訓練および展開されていることはどうですか?
単にそれらを放棄すべきか、それとも隠された知識を引き出し、長い推論の痕跡を誘発することができる検索メカニズムに希望がありますか?
このホワイトペーパーでは、モデルのカルロツリー検索(MCTS)にインスパイアされたアルゴリズムを使用して、この可能性を調査し、サブクエストサバンスワーのペアをモデルの出力ストリームに注入します。
サブクエストがより広範な推論軌道内で潜在的な決定として機能する検索プロセスとしてのフレーミングの推論は、モデルが断片化された知識間で「ドットを接続する」のに役立ち、非合理モデルの拡張された推論トレースを生成するのに役立つことを示します。
3つのベンチマークで方法を評価し、一貫した改善を観察します。
特に、私たちのアプローチは、リベラルアーツにおける9%の大幅な増加を含む、MMMU-Proの全体的な改善を2%得てもたらします。

要約(オリジナル)

Recent research in vision-language models (VLMs) has centered around the possibility of equipping them with implicit long-form chain-of-thought reasoning — akin to the success observed in language models — via distillation and reinforcement learning. But what about the non-reasoning models already trained and deployed across the internet? Should we simply abandon them, or is there hope for a search mechanism that can elicit hidden knowledge and induce long reasoning traces — without any additional training or supervision? In this paper, we explore this possibility using a Monte Carlo Tree Search (MCTS)-inspired algorithm, which injects subquestion-subanswer pairs into the model’s output stream. We show that framing reasoning as a search process — where subquestions act as latent decisions within a broader inference trajectory — helps the model ‘connect the dots’ between fragmented knowledge and produce extended reasoning traces in non-reasoning models. We evaluate our method across three benchmarks and observe consistent improvements. Notably, our approach yields a 2% overall improvement on MMMU-PRO, including a significant 9% gain in Liberal Arts.

arxiv情報

著者 David Acuna,Ximing Lu,Jaehun Jung,Hyunwoo Kim,Amlan Kar,Sanja Fidler,Yejin Choi
発行日 2025-06-10 15:51:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク