要約
大規模マルチモーダル モデル (LMM) には推論能力が不可欠です。
マルチモーダルな思考連鎖の注釈付きデータが存在しない場合、モデルが自身の出力から学習する自己進化トレーニングが、推論能力を強化するための効果的かつスケーラブルなアプローチとして浮上しました。
使用法が増えているにもかかわらず、特にマルチモーダル推論の文脈において、自己進化トレーニングの包括的な理解は依然として限られています。
この論文では、マルチモーダル推論のための自己進化トレーニングの複雑さを掘り下げ、トレーニング方法、報酬モデル、プロンプトバリエーションという 3 つの重要な要素を正確に特定します。
私たちは各要素を体系的に調査し、さまざまな構成がトレーニングの効果にどのような影響を与えるかを調査します。
私たちの分析は、マルチモーダル推論の最適化を目的とした、各要因に対する一連のベスト プラクティスにつながります。
さらに、トレーニング中の自己進化のダイナミクスと、パフォーマンス向上における自動バランスメカニズムの影響を調査します。
すべての調査を経て、私たちはマルチモーダル推論における自己進化トレーニングの最終レシピを提示し、これらの設計上の選択を MSTaR (Multimodal Self-Evolution Training for Reasoning) と呼ぶフレームワークにカプセル化します。これは、さまざまなサイズのモデルに対して普遍的に効果的です。
ベンチマーク。たとえば、MiniCPM-V-2.5 で実証されているように、人間による追加のアノテーションを使用せずに、5 つのマルチモーダル推論ベンチマークで進化前モデルを大幅に上回っています。
(8B)、Phi-3.5-Vision (4B)、InternVL2 (2B)。
私たちは、この研究がマルチモーダル推論のための自己進化トレーニングの理解における大きなギャップを埋め、将来の研究のための強固な枠組みを提供すると信じています。
私たちのポリシーと報酬モデル、および収集されたデータは、マルチモーダル推論におけるさらなる調査を容易にするために公開されています。
要約(オリジナル)
Reasoning ability is essential for Large Multimodal Models (LMMs). In the absence of multimodal chain-of-thought annotated data, self-evolving training, where the model learns from its own outputs, has emerged as an effective and scalable approach for enhancing reasoning abilities. Despite its growing usage, a comprehensive understanding of self-evolving training, particularly in the context of multimodal reasoning, remains limited. In this paper, we delve into the intricacies of self-evolving training for multimodal reasoning, pinpointing three key factors: Training Method, Reward Model, and Prompt Variation. We systematically examine each factor and explore how various configurations affect the training’s effectiveness. Our analysis leads to a set of best practices for each factor, aimed at optimizing multimodal reasoning. Furthermore, we explore the Self-Evolution Dynamics during training and the impact of automatic balancing mechanisms in boosting performance. After all the investigations, we present a final recipe for self-evolving training in multimodal reasoning, encapsulating these design choices into a framework we call MSTaR (Multimodal Self-evolving Training for Reasoning), which is universally effective for models with different sizes on various benchmarks, e.g., surpassing the pre-evolved model significantly on 5 multimodal reasoning benchmarks without using additional human annotations, as demonstrated on MiniCPM-V-2.5 (8B), Phi-3.5-Vision (4B) and InternVL2 (2B). We believe this study fills a significant gap in the understanding of self-evolving training for multimodal reasoning and offers a robust framework for future research. Our policy and reward models, as well as the collected data, is released to facilitate further investigation in multimodal reasoning.
arxiv情報
著者 | Wei Liu,Junlong Li,Xiwen Zhang,Fan Zhou,Yu Cheng,Junxian He |
発行日 | 2024-12-23 10:18:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google