Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models

要約

大規模言語モデル (LLM) は、より推論することで強化された機能と信頼性を実証し、思考連鎖プロンプトから OpenAI o1 のような製品レベルのソリューションに進化します。
LLM 推論を改善するためのさまざまな取り組みにもかかわらず、高品質の長鎖推論データと最適化されたトレーニング パイプラインは、視覚言語タスクにおいて依然として十分に検討されていません。
この論文では、1) 複雑なマルチモーダル タスクに対して長く堅牢な推論データをスケーラブルに生成する、2) マルチモーダルな大規模言語モデルの推論機能を強化するための効果的なトレーニング パイプラインを実現する初期の取り組みである Insight-V について紹介します。
MLLM)。
具体的には、人手を介さずに長く構造化された推論データを作成するために、十分に長く多様な推論パスを生成するための進歩的な戦略と、データの品質を確保するための多粒度の評価方法を備えた 2 段階のパイプラインを設計します。
このように長く複雑な推論データを持つ MLLM を直接監視しても、理想的な推論能力は得られないことが観察されています。
この問題に取り組むために、我々は、長鎖推論を実行する専用の推論エージェントと、推論結果を判断して要約するように訓練された要約エージェントから構成されるマルチエージェントシステムを設計します。
さらに、推論エージェントの生成の安定性と品質を向上させるために、反復 DPO アルゴリズムを組み込みます。
人気の LLaVA-NeXT モデルと強力なベース MLLM に基づいて、視覚的な推論を必要とする困難なマルチモーダル ベンチマーク全体で大幅なパフォーマンスの向上を実証します。
Insight-V は、マルチエージェント システムの利点を活用して、知覚に重点を置いたマルチモーダル タスクのパフォーマンスを簡単に維持または向上させることもできます。

要約(オリジナル)

Large Language Models (LLMs) demonstrate enhanced capabilities and reliability by reasoning more, evolving from Chain-of-Thought prompting to product-level solutions like OpenAI o1. Despite various efforts to improve LLM reasoning, high-quality long-chain reasoning data and optimized training pipelines still remain inadequately explored in vision-language tasks. In this paper, we present Insight-V, an early effort to 1) scalably produce long and robust reasoning data for complex multi-modal tasks, and 2) an effective training pipeline to enhance the reasoning capabilities of multi-modal large language models (MLLMs). Specifically, to create long and structured reasoning data without human labor, we design a two-step pipeline with a progressive strategy to generate sufficiently long and diverse reasoning paths and a multi-granularity assessment method to ensure data quality. We observe that directly supervising MLLMs with such long and complex reasoning data will not yield ideal reasoning ability. To tackle this problem, we design a multi-agent system consisting of a reasoning agent dedicated to performing long-chain reasoning and a summary agent trained to judge and summarize reasoning results. We further incorporate an iterative DPO algorithm to enhance the reasoning agent’s generation stability and quality. Based on the popular LLaVA-NeXT model and our stronger base MLLM, we demonstrate significant performance gains across challenging multi-modal benchmarks requiring visual reasoning. Benefiting from our multi-agent system, Insight-V can also easily maintain or improve performance on perception-focused multi-modal tasks.

arxiv情報

著者 Yuhao Dong,Zuyan Liu,Hai-Long Sun,Jingkang Yang,Winston Hu,Yongming Rao,Ziwei Liu
発行日 2024-11-21 18:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク