要約
この論文では、知識の蒸留なしで純粋に自己改善に依存して、トレーニングサンプルが大幅に少ない視覚的推論を強化する効果的な方法を提示します。
私たちの重要な洞察は、強化微調整(RFT)中のデータをトレーニングすることの難しさが重要であることです。
適切に挑戦するサンプルは、データセットが小さい場合でも、推論機能を大幅に高めることができます。
直感的であるにもかかわらず、主な課題はサンプルの難易度を正確に定量化して、効果的なデータフィルタリングを有効にしています。
この目的のために、それを達成するためにモンテカルロツリー検索(MCTS)を再利用する新しい方法を提案します。
キュレーションされた70Kオープンソーストレーニングサンプルから始めて、各問題を解決するためにVLMSが必要とする反復回数に基づいてサンプルの難易度を定量化するMCTSベースの選択方法を導入します。
MCTSのこの明示的な段階的な推論により、モデルは、本当に挑戦的なサンプルをより長くよりよく識別するためにモデルを実施します。
QWEN2.5-VL-7B-InstructでRFTを実行するために11Kサンプルをフィルタリングおよび保持し、最終モデルであるThinkLite-VLを獲得します。
8つのベンチマークの評価結果は、ThinkLite-VLがQWEN2.5-VL-7B-Instructの平均パフォーマンスを7%改善し、知識蒸留なしの11Kトレーニングサンプルのみを使用していることを示しています。
これにより、既存のすべての7Bレベルの推論VLMと、精度ベースのフィルタリングなどの古典的な選択方法を使用するかなり匹敵するベースラインが大幅に上回ります。
特に、Mathvistaでは、ThinkLite-VL-7Bは75.1のSOTA精度を達成し、QWEN2.5-VL-72B、GPT-4O、およびO1を上回ります。
コード、データ、モデルはhttps://github.com/si0wang/thinklite-vlで入手できます。
要約(オリジナル)
In this paper, we present an effective method to enhance visual reasoning with significantly fewer training samples, relying purely on self-improvement with no knowledge distillation. Our key insight is that the difficulty of training data during reinforcement fine-tuning (RFT) is critical. Appropriately challenging samples can substantially boost reasoning capabilities even when the dataset is small. Despite being intuitive, the main challenge remains in accurately quantifying sample difficulty to enable effective data filtering. To this end, we propose a novel way of repurposing Monte Carlo Tree Search (MCTS) to achieve that. Starting from our curated 70k open-source training samples, we introduce an MCTS-based selection method that quantifies sample difficulty based on the number of iterations required by the VLMs to solve each problem. This explicit step-by-step reasoning in MCTS enforces the model to think longer and better identifies samples that are genuinely challenging. We filter and retain 11k samples to perform RFT on Qwen2.5-VL-7B-Instruct, resulting in our final model, ThinkLite-VL. Evaluation results on eight benchmarks show that ThinkLite-VL improves the average performance of Qwen2.5-VL-7B-Instruct by 7%, using only 11k training samples with no knowledge distillation. This significantly outperforms all existing 7B-level reasoning VLMs, and our fairly comparable baselines that use classic selection methods such as accuracy-based filtering. Notably, on MathVista, ThinkLite-VL-7B achieves the SoTA accuracy of 75.1, surpassing Qwen2.5-VL-72B, GPT-4o, and O1. Our code, data, and model are available at https://github.com/si0wang/ThinkLite-VL.
arxiv情報
著者 | Xiyao Wang,Zhengyuan Yang,Chao Feng,Hongjin Lu,Linjie Li,Chung-Ching Lin,Kevin Lin,Furong Huang,Lijuan Wang |
発行日 | 2025-04-10 17:49:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google