Play to Generalize: Learning to Reason Through Game Play

要約

マルチモーダル大手言語モデル(MLLM)における一般化可能な推論機能の開発は依然として困難です。
Gameplayが転送可能な認知スキルを促進することを示唆する認知科学の文献に動機付けられていることは、MLLMがアーケードのようなゲームをプレイしてマルチモーダル推論の一般化を開発する新しいトレーニング後のパラダイム、視覚的なゲーム学習、またはVigalを提案します。
具体的には、単純なアーケードのようなゲームでの強化学習(RL)を介して7BパラメーターMLLMをトレーニング後に示します。
Snakeは、Mathvistaなどのマルチモーダル数学ベンチマークやMMMUなどのマルチディシップラインの質問で、RL中に作業するソリューション、方程式、図を見ずに大幅に向上させ、転送可能な推論スキルのキャプチャを示唆しています。
驚くべきことに、私たちのモデルは、マルチモーダル推論ベンチマークのマルチモーダル推論データに合わせて調整された専門モデルを上回り、一般的な視覚ベンチマークでベースモデルのパフォーマンスを維持します。
私たちの調査結果は、新しいトレーニング後のパラダイムを示唆しています。合成、ルールベースのゲームは、MLLMSの一般化可能なマルチモーダル推論能力のロックを解除する制御可能でスケーラブルなテキスト前タスクとして機能します。

要約(オリジナル)

Developing generalizable reasoning capabilities in multimodal large language models (MLLMs) remains challenging. Motivated by cognitive science literature suggesting that gameplay promotes transferable cognitive skills, we propose a novel post-training paradigm, Visual Game Learning, or ViGaL, where MLLMs develop out-of-domain generalization of multimodal reasoning through playing arcade-like games. Specifically, we show that post-training a 7B-parameter MLLM via reinforcement learning (RL) on simple arcade-like games, e.g. Snake, significantly enhances its downstream performance on multimodal math benchmarks like MathVista, and on multi-discipline questions like MMMU, without seeing any worked solutions, equations, or diagrams during RL, suggesting the capture of transferable reasoning skills. Remarkably, our model outperforms specialist models tuned on multimodal reasoning data in multimodal reasoning benchmarks, while preserving the base model’s performance on general visual benchmarks, a challenge where specialist models often fall short. Our findings suggest a new post-training paradigm: synthetic, rule-based games can serve as controllable and scalable pre-text tasks that unlock generalizable multimodal reasoning abilities in MLLMs.

arxiv情報

著者 Yunfei Xie,Yinsong Ma,Shiyi Lan,Alan Yuille,Junfei Xiao,Chen Wei
発行日 2025-06-09 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク