MM-Eureka: Exploring Visual Aha Moment with Rule-based Large-scale Reinforcement Learning

要約

大規模なルールベースの強化学習(RL)をマルチモーダル推論に拡張するマルチモーダル推論モデルであるMM-Eurekaを提示します。
ルールベースのRLは、テキストドメインでのLLMSの推論能力の改善に顕著な成功を示していますが、マルチモーダル設定への適用は依然として困難です。
私たちの仕事は、マルチモーダル空間のDeepSeek-R1などのテキストベースのRLシステムの重要な特性を再現しています。これには、精度の報酬と応答の長さの着実な増加、反射行動の出現が含まれます。
命令チューニングモデルと事前に訓練されたモデルの両方が、監視された微調整なしにルールベースのRLを通じて強力なマルチモーダル推論機能を開発し、代替アプローチと比較して優れたデータ効率を示すことができることを実証します。
この分野でのさらなる研究を促進するために、完全なパイプラインをオープンソーシングします。
すべてのコード、モデル、データなどをhttps://github.com/modalminds/mm-eurekaでリリースします

要約(オリジナル)

We present MM-Eureka, a multimodal reasoning model that successfully extends large-scale rule-based reinforcement learning (RL) to multimodal reasoning. While rule-based RL has shown remarkable success in improving LLMs’ reasoning abilities in text domains, its application to multimodal settings has remained challenging. Our work reproduces key characteristics of text-based RL systems like DeepSeek-R1 in the multimodal space, including steady increases in accuracy reward and response length, and the emergence of reflection behaviors. We demonstrate that both instruction-tuned and pre-trained models can develop strong multimodal reasoning capabilities through rule-based RL without supervised fine-tuning, showing superior data efficiency compared to alternative approaches. We open-source our complete pipeline to foster further research in this area. We release all our codes, models, data, etc. at https://github.com/ModalMinds/MM-EUREKA

arxiv情報

著者 Fanqing Meng,Lingxiao Du,Zongkai Liu,Zhixiang Zhou,Quanfeng Lu,Daocheng Fu,Botian Shi,Wenhai Wang,Junjun He,Kaipeng Zhang,Ping Luo,Yu Qiao,Qiaosheng Zhang,Wenqi Shao
発行日 2025-03-10 14:23:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク