Rethinking RL Scaling for Vision Language Models: A Transparent, From-Scratch Framework and Comprehensive Evaluation Scheme

要約

強化学習(RL)は、近年、大規模言語モデルの推論能力を向上させる強い可能性を示し、現在、視覚言語モデル(VLM)に積極的に拡張されている。しかしながら、VLMにおける既存のRLアプリケーションは、多くの場合、再現性とアクセシビリティを妨げる、高度に設計されたフレームワークに依存しており、標準化された評価プロトコルがないため、結果の比較やトレーニングダイナミクスの解釈が困難である。本研究では、VLMにおけるRLのための透明でゼロからのフレームワークを導入し、複数のモデルやデータセットで検証された、最小かつ機能的な4段階のパイプラインを提供する。さらに、標準化された評価スキームを提案し、トレーニングダイナミクスと反射行動を評価する。視覚的推論タスクに関する広範な実験により、重要な経験的知見が明らかになった:応答の長さはランダムシードに敏感であり、反射は出力の長さと相関し、RLは高品質なデータであっても、汎化において教師付き微調整(SFT)を一貫して上回る。これらの発見は、提案されたフレームワークとともに、再現可能なベースラインを確立し、RLベースのVLM研究への幅広い関与を支援することを目的としている。

要約(オリジナル)

Reinforcement learning (RL) has recently shown strong potential in improving the reasoning capabilities of large language models and is now being actively extended to vision-language models (VLMs). However, existing RL applications in VLMs often rely on heavily engineered frameworks that hinder reproducibility and accessibility, while lacking standardized evaluation protocols, making it difficult to compare results or interpret training dynamics. This work introduces a transparent, from-scratch framework for RL in VLMs, offering a minimal yet functional four-step pipeline validated across multiple models and datasets. In addition, a standardized evaluation scheme is proposed to assess training dynamics and reflective behaviors. Extensive experiments on visual reasoning tasks uncover key empirical findings: response length is sensitive to random seeds, reflection correlates with output length, and RL consistently outperforms supervised fine-tuning (SFT) in generalization, even with high-quality data. These findings, together with the proposed framework, aim to establish a reproducible baseline and support broader engagement in RL-based VLM research.

arxiv情報

著者 Yan Ma,Steffi Chern,Xuyang Shen,Yiran Zhong,Pengfei Liu
発行日 2025-04-04 01:07:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク