要約
ビデオ理解のためにマルチモーダル大手言語モデル(MLLMS)の空間的推論能力を強化することは重要でありながら挑戦的です。
SPATIAL-R1は、2つの重要な貢献を含むターゲットアプローチ、SRのキュレーション、7つのタスクタイプにわたって自動的に生成されたQAペアを備えたScannetからの新しいビデオ空間推論データセット、および微調整のためのタスク固有のグループ相対ポリシー最適化(GRPO)の適用です。
GRPOを使用したSRのQWEN2.5-VL-7B-Instructモデルをトレーニングすることにより、Spatial-R1はVSIベンチベンチマークでパフォーマンスを大幅に高め、ベースラインで7.4 \%のゲインを達成し、強力な現代モデルを上回ります。
この作業は、ビデオMLLMの複雑な空間推論を改善するための専門データのキュレーションと最適化手法の有効性を検証します。
要約(オリジナル)
Enhancing the spatial reasoning capabilities of Multi-modal Large Language Models (MLLMs) for video understanding is crucial yet challenging. We present Spatial-R1, a targeted approach involving two key contributions: the curation of SR, a new video spatial reasoning dataset from ScanNet with automatically generated QA pairs across seven task types, and the application of Task-Specific Group Relative Policy Optimization (GRPO) for fine-tuning. By training the Qwen2.5-VL-7B-Instruct model on SR using GRPO, Spatial-R1 significantly advances performance on the VSI-Bench benchmark, achieving a 7.4\% gain over the baseline and outperforming strong contemporary models. This work validates the effectiveness of specialized data curation and optimization techniques for improving complex spatial reasoning in video MLLMs.
arxiv情報
著者 | Kun Ouyang |
発行日 | 2025-04-02 15:12:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google