Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1

要約

Chain of Thound(COT)の最近の進歩により、大規模な言語モデル(LLMS)の推論能力が大幅に改善され、補強学習(RL)が効果的なトレーニング後のアプローチとして浮上しています。
マルチモーダル大手言語モデル(MLLM)は、この推論の可能性を継承しますが、知覚と論理的推論の両方を必要とするタスクでは露出度の低いままです。
これに対処するために、ビデオ理解におけるMLLMのトレーニング後の方法を体系的に評価するように設計されたベンチマークであるシードベンチ-R1を紹介します。
複数の選択的な質問の形式で複雑な現実世界のビデオと複雑な日常の計画タスクが含まれており、洗練された認識と推論が必要です。
Seed-Bench-R1は、3レベルの階層を介して一般化を評価します。分布、環境内環境、および環境と環境のクロスタスクのシナリオを、簡単に検証可能な地上回答を備えた大規模なトレーニングデータセットを装備しています。
QWEN2-VL-INSTRUCT-7Bを基本モデルとして使用して、RLを監視付き微調整(SFT)と比較し、RLのデータ効率と優れたパフォーマンスを、分散貢献および分散型の両方のタスクの両方で示し、LongBideBenchのような一般的なビデオ理解のSFTを上回ることさえあります。
私たちの詳細な分析は、RLが視覚的認識を高めるが、しばしば論理的に一貫性のない推論チェーンを生成することが多いことを明らかにしています。
一貫性のない推論や見落とされた視覚的手がかりなどの主要な制限を特定し、ベースモデルの推論、報酬モデリング、および騒々しい信号に対するRLの堅牢性の将来の改善を示唆しています。

要約(オリジナル)

Recent advancements in Chain of Thought (COT) generation have significantly improved the reasoning capabilities of Large Language Models (LLMs), with reinforcement learning (RL) emerging as an effective post-training approach. Multimodal Large Language Models (MLLMs) inherit this reasoning potential but remain underexplored in tasks requiring both perception and logical reasoning. To address this, we introduce SEED-Bench-R1, a benchmark designed to systematically evaluate post-training methods for MLLMs in video understanding. It includes intricate real-world videos and complex everyday planning tasks in the format of multiple-choice questions, requiring sophisticated perception and reasoning. SEED-Bench-R1 assesses generalization through a three-level hierarchy: in-distribution, cross-environment, and cross-environment-task scenarios, equipped with a large-scale training dataset with easily verifiable ground-truth answers. Using Qwen2-VL-Instruct-7B as a base model, we compare RL with supervised fine-tuning (SFT), demonstrating RL’s data efficiency and superior performance on both in-distribution and out-of-distribution tasks, even outperforming SFT on general video understanding benchmarks like LongVideoBench. Our detailed analysis reveals that RL enhances visual perception but often produces less logically coherent reasoning chains. We identify key limitations such as inconsistent reasoning and overlooked visual cues, and suggest future improvements in base model reasoning, reward modeling, and RL robustness against noisy signals.

arxiv情報

著者 Yi Chen,Yuying Ge,Rui Wang,Yixiao Ge,Lu Qiu,Ying Shan,Xihui Liu
発行日 2025-03-31 17:55:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク