One RL to See Them All: Visual Triple Unified Reinforcement Learning

要約

強化学習(RL)は、ビジョン言語モデル(VLM)の推論能力を大幅に進めています。
ただし、特にオブジェクトの検出や接地などの知覚濃縮タスクの場合、推論タスクを超えたRLの使用はほとんど未調査のままです。
V-Triuneは、VLMが単一のトレーニングパイプライン内で視覚的な推論と認識タスクを共同で学習できるようにする視覚的なトリプル統合強化学習システムです。
V-Triuneは、サンプルレベルのデータのフォーマット(多様なタスク入力を統一するため)、検証レベルの報酬計算(特殊な検証者を介してカスタム報酬を提供するため)、およびソースレベルのメトリックモニタリング(データソースレベルでの問題を診断する)で構成されています。
さらに、V-Triuneが処理する知覚タスクの適応、進歩的、明確なフィードバックを提供する新しい動的IOU報酬を紹介します。
私たちのアプローチは、オープンソース7Bおよび32Bバックボーンモデルを使用して、既製のRLトレーニングフレームワーク内にインスタンス化されています。
結果のモデルは、Orsta(それらすべてを見るための1つのRL)と呼ばれ、推論と知覚の両方のタスクにわたって一貫した改善を示しています。
この幅広い機能は、多様なデータセットでのトレーニングによって大幅に形成され、4つの代表的な視覚的推論タスク(数学、パズル、チャート、科学)と4つの視覚認識タスク(接地、検出、カウント、OCR)を約束します。
その後、OrstaはMega-Bench Coreの大幅な利益を得ており、+2.1からさまざまな7Bおよび32Bモデルのバリエーションで+2.1から印象的な+14.1の範囲で改善が行われ、パフォーマンスの利点は幅広いダウンストリームタスクに拡大します。
これらの結果は、VLMSの統一されたRLアプローチの有効性とスケーラビリティを強調しています。
V-Triuneシステムは、Orstaモデルとともに、https://github.com/minimax-aiで公開されています。

要約(オリジナル)

Reinforcement learning (RL) has significantly advanced the reasoning capabilities of vision-language models (VLMs). However, the use of RL beyond reasoning tasks remains largely unexplored, especially for perceptionintensive tasks like object detection and grounding. We propose V-Triune, a Visual Triple Unified Reinforcement Learning system that enables VLMs to jointly learn visual reasoning and perception tasks within a single training pipeline. V-Triune comprises triple complementary components: Sample-Level Data Formatting (to unify diverse task inputs), Verifier-Level Reward Computation (to deliver custom rewards via specialized verifiers) , and Source-Level Metric Monitoring (to diagnose problems at the data-source level). We further introduce a novel Dynamic IoU reward, which provides adaptive, progressive, and definite feedback for perception tasks handled by V-Triune. Our approach is instantiated within off-the-shelf RL training framework using open-source 7B and 32B backbone models. The resulting model, dubbed Orsta (One RL to See Them All), demonstrates consistent improvements across both reasoning and perception tasks. This broad capability is significantly shaped by its training on a diverse dataset, constructed around four representative visual reasoning tasks (Math, Puzzle, Chart, and Science) and four visual perception tasks (Grounding, Detection, Counting, and OCR). Subsequently, Orsta achieves substantial gains on MEGA-Bench Core, with improvements ranging from +2.1 to an impressive +14.1 across its various 7B and 32B model variants, with performance benefits extending to a wide range of downstream tasks. These results highlight the effectiveness and scalability of our unified RL approach for VLMs. The V-Triune system, along with the Orsta models, is publicly available at https://github.com/MiniMax-AI.

arxiv情報

著者 Yan Ma,Linge Du,Xuyang Shen,Shaoxiang Chen,Pengfei Li,Qibing Ren,Lizhuang Ma,Yuchao Dai,Pengfei Liu,Junjie Yan
発行日 2025-05-23 17:41:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク