SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement

要約

ThinkLite-VLを紹介します。ThinkLite-VLは、知識の蒸留なしに強化微調整(RFT)の自己改善に純粋に依存して、1桁少ないトレーニングサンプルを使用して最先端(SOTA)パフォーマンスを達成する視覚的推論モデルのファミリーを紹介します。
私たちの中心的な洞察は、サンプルの難易度がRFTの有効性に大きく影響することです。適切に挑戦する例は、低データの体制であっても、かなりの推論の改善を促進する可能性があります。
ただし、信頼性の高いスケーラブルな方法でサンプルの難易度を定量化することは、自明ではありません。
これに対処するために、モンテカルロツリー検索(MCT)を再利用して、視覚言語モデル(VLM)が各インスタンスを解決するために必要な推論の数の数の数を介してサンプルの難易度を測定します。
このMCTSベースの選択手順は、より深い推論を誘導しながら解決可能なままであるサンプルを識別し、数学、自然像の理解、チャート理解にまたがる70Kのオープンソースの例から高品質のサブセットをフィルタリングできます。
このアプローチを使用して、QWEN2.5-VL-7B-InstructのRFTの挑戦的なサンプルとQWEN2.5-VL-72B-Instructの7.5Kサンプルのみを選択します。
結果のモデルであるThinkLite-VL-7BおよびThinkLite-VL-72Bは、8つの視覚的推論ベンチマークでそれぞれのベースモデルを大幅に上回ります。
特に、ThinkLite-VL-7Bは、QWEN2.5-VL-7B-Instructの平均パフォーマンスを7 \%で改善し、既存のすべての7Bレベルモデルと、GPT-4O、O1、QWEN2.5-VL-72Bなどのはるかに大きなモデルを上回り、マチスタで75.1の新しいSOTAスコアを達成します。
ThinkLite-VL-72BはSota Frontierをさらに進め、Mathvistaで79.7の精度を達成し、オープンソースSOTAで4.42の平均ベンチマーク改善を達成します。
これらの結果は、MCTS誘導の難易度フィルタリングが、マルチモーダル推論におけるデータ効率の高い自己改善に向けたスケーラブルで効果的なパスを提供することを示しています。

要約(オリジナル)

We introduce ThinkLite-VL, a family of visual reasoning models that achieve state-of-the-art (SoTA) performance using an order of magnitude fewer training samples, relying purely on reinforcement fine-tuning (RFT) self-improvement without any knowledge distillation. Our central insight is that sample difficulty critically influences RFT effectiveness: appropriately challenging examples can drive substantial reasoning improvements, even in low-data regimes. However, quantifying sample difficulty in a reliable and scalable manner remains non-trivial. To address this, we repurpose Monte Carlo Tree Search (MCTS) to measure sample difficulty via the number of reasoning iterations a vision-language model (VLM) requires to solve each instance. This MCTS-based selection procedure identifies samples that induce deeper reasoning while remaining solvable, allowing us to filter a high-quality subset from 70k open-source examples spanning math, natural image understanding, and chart comprehension. Using this approach, we select just 11k challenging samples for RFT on Qwen2.5-VL-7B-Instruct and 7.5k samples for Qwen2.5-VL-72B-Instruct. The resulting models, ThinkLite-VL-7B and ThinkLite-VL-72B, significantly outperform their respective base models across eight visual reasoning benchmarks. In particular, ThinkLite-VL-7B improves the average performance of Qwen2.5-VL-7B-Instruct by 7\% and surpasses all existing 7B-level models, as well as much larger models such as GPT-4o, O1 and Qwen2.5-VL-72B, achieving a new SoTA score of 75.1 on MathVista. ThinkLite-VL-72B further advances the SoTA frontier, achieving an accuracy of 79.7 on MathVista and an average benchmark improvement of 4.42 over the open-source SOTA. These results demonstrate that MCTS-guided difficulty filtering provides a scalable and effective path toward data-efficient self-improvement in multimodal reasoning.

arxiv情報

著者 Xiyao Wang,Zhengyuan Yang,Chao Feng,Hongjin Lu,Linjie Li,Chung-Ching Lin,Kevin Lin,Furong Huang,Lijuan Wang
発行日 2025-05-30 15:53:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク