要約
大規模言語モデル(LLM)は、より多くの推論を行うことで、強化された能力と信頼性を示し、思考連鎖プロンプトからOpenAI o1のような製品レベルのソリューションへと進化しています。LLMの推論を改善するための様々な取り組みにもかかわらず、高品質の長鎖推論データと最適化されたトレーニングパイプラインは、視覚言語タスクにおいてまだ十分に検討されていない。本論文では、1)複雑なマルチモーダルタスクのための長く頑健な推論データをスケーラブルに作成するための初期の取り組みであるInsight-Vと、2)マルチモーダル大規模言語モデル(MLLM)の推論能力を向上させるための効果的なトレーニングパイプラインを紹介する。具体的には、人手をかけずに長く構造化された推論データを作成するために、十分に長く多様な推論経路を生成するプログレッシブ戦略と、データの品質を保証するための多粒度評価法を用いた2段階のパイプラインを設計する。このような長く複雑な推論データを持つMLLMを直接監督しても、理想的な推論能力は得られない。この問題に取り組むため、我々は、長鎖推論を行う専用の推論エージェントと、推論結果を判断し要約するために訓練された要約エージェントからなるマルチエージェントシステムを設計する。さらに、推論エージェントの生成の安定性と品質を高めるために、反復DPOアルゴリズムを組み込む。人気のあるLLaVA-NeXTモデルと、我々のより強力なベースMLLMに基づき、我々は、視覚的推論を必要とする困難なマルチモーダルベンチマークにおいて、大幅な性能向上を実証する。我々のマルチエージェントシステムの恩恵により、Insight-Vは知覚に特化したマルチモーダルなタスクにおいても容易に性能を維持・向上させることができる。
要約(オリジナル)
Large Language Models (LLMs) demonstrate enhanced capabilities and reliability by reasoning more, evolving from Chain-of-Thought prompting to product-level solutions like OpenAI o1. Despite various efforts to improve LLM reasoning, high-quality long-chain reasoning data and optimized training pipelines still remain inadequately explored in vision-language tasks. In this paper, we present Insight-V, an early effort to 1) scalably produce long and robust reasoning data for complex multi-modal tasks, and 2) an effective training pipeline to enhance the reasoning capabilities of multi-modal large language models (MLLMs). Specifically, to create long and structured reasoning data without human labor, we design a two-step pipeline with a progressive strategy to generate sufficiently long and diverse reasoning paths and a multi-granularity assessment method to ensure data quality. We observe that directly supervising MLLMs with such long and complex reasoning data will not yield ideal reasoning ability. To tackle this problem, we design a multi-agent system consisting of a reasoning agent dedicated to performing long-chain reasoning and a summary agent trained to judge and summarize reasoning results. We further incorporate an iterative DPO algorithm to enhance the reasoning agent’s generation stability and quality. Based on the popular LLaVA-NeXT model and our stronger base MLLM, we demonstrate significant performance gains across challenging multi-modal benchmarks requiring visual reasoning. Benefiting from our multi-agent system, Insight-V can also easily maintain or improve performance on perception-focused multi-modal tasks.
arxiv情報
| 著者 | Yuhao Dong,Zuyan Liu,Hai-Long Sun,Jingkang Yang,Winston Hu,Yongming Rao,Ziwei Liu |
| 発行日 | 2025-05-02 16:03:31+00:00 |
| arxivサイト | arxiv_id(pdf) |