MindGYM: Enhancing Vision-Language Models via Synthetic Self-Challenging Questions

要約

大規模なビジョン言語モデル(VLM)は、労働集約型のマニュアル指導データセットまたは計算上の高価な自己監視方法に依存しているため、堅牢で転送可能な推論能力を達成する上で課題に直面しています。
これらの問題に対処するために、3つの段階で構成される合成自己挑戦の質問を通じてVLMを強化するフレームワークであるMindGymを紹介します。
(2)より深い推論を要求するマルチステップの問題を作成するために、ブリッジング、視覚的整形調整などの多様な原則を介して種子の質問を組み合わせて、マルチホップの質問統合に挑戦します。
(3)思考によって誘発されたカリキュラムの微調整、足場の推論からスタンドアロンの推論までモデルを徐々に訓練する構造化されたパイプライン。
モデルの自己合成能力を活用することにより、MindGYMは高いデータ効率(たとえば、わずか400サンプルでMathVision-Miniで +16%の利益を得る)、計算効率(トレーニングと推論コストの両方を削減)、およびタスク全体の堅牢な一般化を達成します。
7つのベンチマークでの広範な評価は、強力なベースラインよりも優れたパフォーマンスを示しており、GPTベースのスコアリングを介して検証された推論の深さと幅の顕著な改善(+15.77%の勝率)を示しています。
MindGymは、人間の介入と資源の要求を最小限に抑えながら、VLM機能を改良するための自己挑戦の実行可能性を強調しています。
コードとデータは、マルチモーダル推論の研究を進めるためにリリースされます。

要約(オリジナル)

Large vision-language models (VLMs) face challenges in achieving robust, transferable reasoning abilities due to reliance on labor-intensive manual instruction datasets or computationally expensive self-supervised methods. To address these issues, we introduce MindGYM, a framework that enhances VLMs through synthetic self-challenging questions, consisting of three stages: (1) Seed Single-Hop Question Synthesis, generating cognitive questions across textual (e.g., logical deduction) and multimodal contexts (e.g., diagram-based queries) spanning eight semantic areas like ethical analysis; (2) Challenging Multi-Hop Question Synthesis, combining seed questions via diverse principles like bridging, visual-textual alignment, to create multi-step problems demanding deeper reasoning; and (3) Thinking-Induced Curriculum Fine-Tuning, a structured pipeline that progressively trains the model from scaffolded reasoning to standalone inference. By leveraging the model’s self-synthesis capability, MindGYM achieves high data efficiency (e.g., +16% gains on MathVision-Mini with only 400 samples), computational efficiency (reducing both training and inference costs), and robust generalization across tasks. Extensive evaluations on seven benchmarks demonstrate superior performance over strong baselines, with notable improvements (+15.77% win rates) in reasoning depth and breadth validated via GPT-based scoring. MindGYM underscores the viability of self-challenging for refining VLM capabilities while minimizing human intervention and resource demands. Code and data are released to advance multimodal reasoning research.

arxiv情報

著者 Zhe Xu,Daoyuan Chen,Zhenqing Ling,Yaliang Li,Ying Shen
発行日 2025-03-12 16:03:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク