要約
この作業では、最終的な答えに至るまでの推論の中間ステップを作成する方法を学習することで、質問を理解し解決する MLLM を開発することを目的としています。
この目的を達成するために、我々は、MLLM のための新しい推論学習方法である集団モンテカルロ木探索 (CoMCTS) を提案します。これは、効果的かつ効率的な推論パスの検索と学習のために「ツリー探索」に集団学習の概念を導入します。
。
CoMCTS の中心的なアイデアは、複数のモデルからの集合的な知識を活用して、展開、シミュレーションと誤差位置決め、逆伝播、選択を含む 4 つの反復操作を通じて、正解に至る効果的な推論パスを共同で推測、検索、特定することです。
CoMCTS を使用して、質問ごとに豊富で明示的かつ明確に定義された推論ノードのツリーを備えたマルチモーダル データセットである Mulberry-260k を構築します。
Mulberry-260k を使用すると、集合的な SFT を実行して、o1 のようなステップバイステップの推論機能とリフレクション機能を備えた一連の MLLM であるモデル、Mulberry をトレーニングします。
広範な実験により、さまざまなベンチマークにおける私たちの提案手法の優位性が実証されています。
コードは https://github.com/HJYao00/Mulberry で入手できます。
要約(オリジナル)
In this work, we aim to develop an MLLM that understands and solves questions by learning to create each intermediate step of the reasoning involved till the final answer. To this end, we propose Collective Monte Carlo Tree Search (CoMCTS), a new learning-to-reason method for MLLMs, which introduces the concept of collective learning into “tree search” for effective and efficient reasoning-path searching and learning. The core idea of CoMCTS is to leverage collective knowledge from multiple models to collaboratively conjecture, search and identify effective reasoning paths toward correct answers via four iterative operations including Expansion, Simulation and Error Positioning, Backpropagation, and Selection. Using CoMCTS, we construct Mulberry-260k, a multimodal dataset with a tree of rich, explicit and well-defined reasoning nodes for each question. With Mulberry-260k, we perform collective SFT to train our model, Mulberry, a series of MLLMs with o1-like step-by-step Reasoning and Reflection capabilities. Extensive experiments demonstrate the superiority of our proposed methods on various benchmarks. Code will be available at https://github.com/HJYao00/Mulberry
arxiv情報
著者 | Huanjin Yao,Jiaxing Huang,Wenhao Wu,Jingyi Zhang,Yibo Wang,Shunyu Liu,Yingjie Wang,Yuxin Song,Haocheng Feng,Li Shen,Dacheng Tao |
発行日 | 2024-12-24 10:07:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google