要約
ビデオ理解のためにマルチモーダル大手言語モデル(MLLMS)の空間的推論能力を強化することは重要でありながら挑戦的です。
SPATIAL-R1は、2つの重要な貢献を含むターゲットアプローチ、SRのキュレーション、7つのタスクタイプにわたって自動的に生成されたQAペアを備えたScannetからの新しいビデオ空間推論データセット、および微調整のためのタスク固有のグループ相対ポリシー最適化(GRPO)の適用です。
GRPOを使用したSRのQWEN2.5-VL-7B-Instructモデルをトレーニングすることにより、Spatial-R1はVSIベンチベンチマークでパフォーマンスを大幅に高め、ベースラインで7.4 \%のゲインを達成し、強力な現代モデルを上回ります。
この作業は、ビデオMLLMの複雑な空間推論を改善するための専門データのキュレーションと最適化手法の有効性を検証します。
要約(オリジナル)
Enhancing the spatial reasoning capabilities of Multi-modal Large Language Models (MLLMs) for video understanding is crucial yet challenging. We present Spatial-R1, a targeted approach involving two key contributions: the curation of SR, a new video spatial reasoning dataset from ScanNet with automatically generated QA pairs across seven task types, and the application of Task-Specific Group Relative Policy Optimization (GRPO) for fine-tuning. By training the Qwen2.5-VL-7B-Instruct model on SR using GRPO, Spatial-R1 significantly advances performance on the VSI-Bench benchmark, achieving a 7.4\% gain over the baseline and outperforming strong contemporary models. This work validates the effectiveness of specialized data curation and optimization techniques for improving complex spatial reasoning in video MLLMs.
arxiv情報
| 著者 | Kun Ouyang |
| 発行日 | 2025-04-02 15:12:17+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google