Perception-R1: Pioneering Perception Policy with Reinforcement Learning

要約

DeepSeek-R1の成功に触発されて、知覚政策学習のためのトレーニング後のMLLMにおけるルールベースの強化学習(RL)の可能性を探ります。
有望ですが、最初の実験では、RLを介して思考プロセスを組み込むことは、すべての視覚的認識タスクにわたってパフォーマンスの向上に一貫して得られないことが明らかになりました。
これにより、視覚的知覚の文脈においてRLの本質的な役割を掘り下げることができます。
この作業では、ファンダメンタルズに戻り、さまざまな知覚タスクに対するRLの効果を調査します。
知覚の複雑さは、RLの有効性を決定する主要な要因であることを観察します。
また、報酬設計は、モデル認識の上限をさらに承認する上で重要な役割を果たすことを観察します。
これらの調査結果を活用するために、トレーニング後のMLLM中にGRPOを使用したスケーラブルなRLフレームワークであるPerception-R1を提案します。
標準のQWEN2.5-VL-3B-Instructを使用すると、Perception-R1はRefCoco +で +4.2%、Pixmo-Countで +17.9%、PageoCRで +4.2%、特にCoCO2017 VALで31.9%APが初めて知覚政策学習のための強力なベースラインを確立します。

要約(オリジナル)

Inspired by the success of DeepSeek-R1, we explore the potential of rule-based reinforcement learning (RL) in MLLM post-training for perception policy learning. While promising, our initial experiments reveal that incorporating a thinking process through RL does not consistently lead to performance gains across all visual perception tasks. This leads us to delve into the essential role of RL in the context of visual perception. In this work, we return to the fundamentals and explore the effects of RL on different perception tasks. We observe that the perceptual complexity is a major factor in determining the effectiveness of RL. We also observe that reward design plays a crucial role in further approching the upper limit of model perception. To leverage these findings, we propose Perception-R1, a scalable RL framework using GRPO during MLLM post-training. With a standard Qwen2.5-VL-3B-Instruct, Perception-R1 achieves +4.2% on RefCOCO+, +17.9% on PixMo-Count, +4.2% on PageOCR, and notably, 31.9% AP on COCO2017 val for the first time, establishing a strong baseline for perception policy learning.

arxiv情報

著者 En Yu,Kangheng Lin,Liang Zhao,Jisheng Yin,Yana Wei,Yuang Peng,Haoran Wei,Jianjian Sun,Chunrui Han,Zheng Ge,Xiangyu Zhang,Daxin Jiang,Jingyu Wang,Wenbing Tao
発行日 2025-04-10 17:58:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Perception-R1: Pioneering Perception Policy with Reinforcement Learning はコメントを受け付けていません

BoxDreamer: Dreaming Box Corners for Generalizable Object Pose Estimation

要約

このペーパーでは、オブジェクトポーズ推定のための一般化可能なRGBベースのアプローチを紹介します。
既存のメソッドは目に見えないオブジェクトのポーズを推定できますが、それらの一般化能力は、閉塞とまばらな参照ビューを含むシナリオで限られたままであり、実際の適用性を制限します。
これらの制限を克服するために、オブジェクトのポーズの中間表現として、オブジェクト境界ボックスのコーナーポイントを導入します。
3Dオブジェクトのコーナーは、スパース入力ビューから確実に回復できますが、ターゲットビューの2Dコーナーポイントは、オクルージョンを含むシナリオでもうまく機能する新しい参照ベースのポイントシンセサイザーを介して推定されます。
オブジェクトセマンティックポイントとして、オブジェクトコーナーは、PNPアルゴリズムを使用してオブジェクトポーズ推定の2D-3D対応を自然に確立します。
YCB-VideoおよびOccluded-LineModデータセットに関する広範な実験は、私たちのアプローチが最先端の方法を上回り、提案された表現の有効性を強調し、オブジェクトのポーズ推定の一般化能力を大幅に強化することを示しています。

要約(オリジナル)

This paper presents a generalizable RGB-based approach for object pose estimation, specifically designed to address challenges in sparse-view settings. While existing methods can estimate the poses of unseen objects, their generalization ability remains limited in scenarios involving occlusions and sparse reference views, restricting their real-world applicability. To overcome these limitations, we introduce corner points of the object bounding box as an intermediate representation of the object pose. The 3D object corners can be reliably recovered from sparse input views, while the 2D corner points in the target view are estimated through a novel reference-based point synthesizer, which works well even in scenarios involving occlusions. As object semantic points, object corners naturally establish 2D-3D correspondences for object pose estimation with a PnP algorithm. Extensive experiments on the YCB-Video and Occluded-LINEMOD datasets show that our approach outperforms state-of-the-art methods, highlighting the effectiveness of the proposed representation and significantly enhancing the generalization capabilities of object pose estimation, which is crucial for real-world applications.

arxiv情報

著者 Yuanhong Yu,Xingyi He,Chen Zhao,Junhao Yu,Jiaqi Yang,Ruizhen Hu,Yujun Shen,Xing Zhu,Xiaowei Zhou,Sida Peng
発行日 2025-04-10 17:58:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | BoxDreamer: Dreaming Box Corners for Generalizable Object Pose Estimation はコメントを受け付けていません

VCR-Bench: A Comprehensive Evaluation Framework for Video Chain-of-Thought Reasoning

要約

考え方(COT)の推論の進歩により、大規模な言語モデル(LLMS)と大規模なビジョン言語モデル(LVLMS)の機能が大幅に向上しました。
ただし、ビデオベッドコットの推論のための厳密な評価フレームワークはまだ不在です。
現在のビデオベンチマークは、推論プロセスを適切に評価し、障害が認識または推論能力の欠陥に起因するかどうかを明らかにすることができません。
したがって、LVLMSのビデオチェーンの推論機能を包括的に評価するために設計された新しいベンチマークであるVCRベンチを紹介します。
VCRベンチは、さまざまなビデオコンテンツと期間にまたがる859のビデオと、1,034の高品質の質問回答ペアで構成されています。
各ペアには、段階的なCOTの理論的根拠が手動で注釈が付けられており、すべてのステップにタグ付けされて、知覚または推論能力との関連を示すようにタグ付けされています。
さらに、7つの異なるタスクの寸法を設計し、COTスコアを提案して、COTプロセス全体を段階的にタグ付けしたCOTの合理的根拠に基づいて評価します。
VCRベンチに関する広範な実験は、現在のLVLMSの大幅な制限を強調しています。
トップパフォーマンスモデルであるO1でさえ、62.8%のCOTスコアと56.7%の精度のみを達成しますが、ほとんどのモデルは40%未満です。
実験では、ほとんどのモデルが推論ステップよりも認識のスコアが低く、複雑なビデオ推論のための時間空間情報処理におけるLVLMSの重要なボトルネックを明らかにしています。
COTスコアと精度の間の堅牢な正の相関は、評価フレームワークの妥当性を確認し、複雑なビデオ推論タスクを解決する際のCOT推論の重要な役割を強調します。
VCRベンチが標準化された評価フレームワークとして機能し、複雑なビデオ推論タスクの実際の欠点を公開することを願っています。

要約(オリジナル)

The advancement of Chain-of-Thought (CoT) reasoning has significantly enhanced the capabilities of large language models (LLMs) and large vision-language models (LVLMs). However, a rigorous evaluation framework for video CoT reasoning remains absent. Current video benchmarks fail to adequately assess the reasoning process and expose whether failures stem from deficiencies in perception or reasoning capabilities. Therefore, we introduce VCR-Bench, a novel benchmark designed to comprehensively evaluate LVLMs’ Video Chain-of-Thought Reasoning capabilities. VCR-Bench comprises 859 videos spanning a variety of video content and durations, along with 1,034 high-quality question-answer pairs. Each pair is manually annotated with a stepwise CoT rationale, where every step is tagged to indicate its association with the perception or reasoning capabilities. Furthermore, we design seven distinct task dimensions and propose the CoT score to assess the entire CoT process based on the stepwise tagged CoT rationals. Extensive experiments on VCR-Bench highlight substantial limitations in current LVLMs. Even the top-performing model, o1, only achieves a 62.8% CoT score and an 56.7% accuracy, while most models score below 40%. Experiments show most models score lower on perception than reasoning steps, revealing LVLMs’ key bottleneck in temporal-spatial information processing for complex video reasoning. A robust positive correlation between the CoT score and accuracy confirms the validity of our evaluation framework and underscores the critical role of CoT reasoning in solving complex video reasoning tasks. We hope VCR-Bench to serve as a standardized evaluation framework and expose the actual drawbacks in complex video reasoning task.

arxiv情報

著者 Yukun Qi,Yiming Zhao,Yu Zeng,Xikun Bao,Wenxuan Huang,Lin Chen,Zehui Chen,Jie Zhao,Zhongang Qi,Feng Zhao
発行日 2025-04-10 17:59:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | VCR-Bench: A Comprehensive Evaluation Framework for Video Chain-of-Thought Reasoning はコメントを受け付けていません

MM-IFEngine: Towards Multimodal Instruction Following

要約

次の(IF)能力は、マルチモーダルの大手言語モデル(MLLM)がどの程度よく理解しているか、そして彼らがそれを正しく行っているかどうかを正確に理解していることを測定します。
トレーニングデータに続く既存のマルチモーダル命令は不足しており、ベンチマークはアトミック命令で簡単になり、評価戦略は正確な出力制約を必要とするタスクに不正確です。
これに対処するために、高品質の画像インストラクションペアを生成するための効果的なパイプラインであるMM-Ifengineを提示します。
MM-Ifengine Pipelineは、大規模で多様な、高品質のトレーニングデータMM-Ifinstruct-23Kを生成します。これは、監視された微調整(SFT)に適しており、MM-IFDPO-23Kとして直接選好最適化(DPO)として拡張されます。
さらに、(1)入力画像に結び付けられた出力応答と知覚レベルの制約の構成と(2)ルールベースの評価と裁判官モデルの両方を組み込む包括的な評価パイプラインの両方を含む、挑戦的で多様なマルチモーダル命令に応じたベンチマークであるMM-Ifalvalをさらに紹介します。
SFTおよびDPO実験を実施し、MM-IfinStruct-23KおよびMM-IFDPO-23Kの微調整MLLMが、MM-Ifalval(+10.2 $ \%$)、Mia(+7.6 $ \%)、Ifeval(+12.3 $)など、さまざまなベンチマークで顕著な利益を達成することを実証します。
完全なデータと評価コードは、https://github.com/syuan03/mm-ifengineでリリースされます。

要約(オリジナル)

The Instruction Following (IF) ability measures how well Multi-modal Large Language Models (MLLMs) understand exactly what users are telling them and whether they are doing it right. Existing multimodal instruction following training data is scarce, the benchmarks are simple with atomic instructions, and the evaluation strategies are imprecise for tasks demanding exact output constraints. To address this, we present MM-IFEngine, an effective pipeline to generate high-quality image-instruction pairs. Our MM-IFEngine pipeline yields large-scale, diverse, and high-quality training data MM-IFInstruct-23k, which is suitable for Supervised Fine-Tuning (SFT) and extended as MM-IFDPO-23k for Direct Preference Optimization (DPO). We further introduce MM-IFEval, a challenging and diverse multi-modal instruction-following benchmark that includes (1) both compose-level constraints for output responses and perception-level constraints tied to the input images, and (2) a comprehensive evaluation pipeline incorporating both rule-based assessment and judge model. We conduct SFT and DPO experiments and demonstrate that fine-tuning MLLMs on MM-IFInstruct-23k and MM-IFDPO-23k achieves notable gains on various IF benchmarks, such as MM-IFEval (+10.2$\%$), MIA (+7.6$\%$), and IFEval (+12.3$\%$). The full data and evaluation code will be released on https://github.com/SYuan03/MM-IFEngine.

arxiv情報

著者 Shengyuan Ding,Shenxi Wu,Xiangyu Zhao,Yuhang Zang,Haodong Duan,Xiaoyi Dong,Pan Zhang,Yuhang Cao,Dahua Lin,Jiaqi Wang
発行日 2025-04-10 17:59:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MM-IFEngine: Towards Multimodal Instruction Following はコメントを受け付けていません

Detect Anything 3D in the Wild

要約

密集した3Dオブジェクトの検出における深い学習の成功にもかかわらず、既存のアプローチは、新しいオブジェクトとカメラ構成へのゼロショット一般化と闘っています。
単眼の入力のみを使用して、任意のカメラ構成の下で新しいオブジェクトを検出できる、迅速な3D検出ファンデーションモデルであるditany3dを導入します。
3D検出のための基礎モデルのトレーニングは、注釈付き3Dデータの限られた可用性によって根本的に制約されています。これにより、この不足を補うために、訓練された事前に訓練された2Dファンデーションモデルに埋め込まれた豊富な事前知識を活用するように動機付けます。
2Dの知識を3Dに効果的に転送するために、Ditany3Dには2つのコアモジュールが組み込まれています。2Dアグリゲーターは、さまざまな2Dファンデーションモデルから機能を整列させ、3D埋め込みマッピングを備えた3Dインタープリターは、2Dから3Dの知識移転で壊滅的な忘却を軽減します。
実験結果は、目に見えないカテゴリと新しいカメラ構成で最先端のパフォーマンスを達成するだけでなく、ドメイン内データのほとんどの競合他社を上回るDetany3Dを超えるDetany3Dを超えるDetany3Dの強力な一般化を検証します。
オープンワールド設定における3D中心のタスク。
より多くの視覚化の結果は、ditany3dプロジェクトページにあります。

要約(オリジナル)

Despite the success of deep learning in close-set 3D object detection, existing approaches struggle with zero-shot generalization to novel objects and camera configurations. We introduce DetAny3D, a promptable 3D detection foundation model capable of detecting any novel object under arbitrary camera configurations using only monocular inputs. Training a foundation model for 3D detection is fundamentally constrained by the limited availability of annotated 3D data, which motivates DetAny3D to leverage the rich prior knowledge embedded in extensively pre-trained 2D foundation models to compensate for this scarcity. To effectively transfer 2D knowledge to 3D, DetAny3D incorporates two core modules: the 2D Aggregator, which aligns features from different 2D foundation models, and the 3D Interpreter with Zero-Embedding Mapping, which mitigates catastrophic forgetting in 2D-to-3D knowledge transfer. Experimental results validate the strong generalization of our DetAny3D, which not only achieves state-of-the-art performance on unseen categories and novel camera configurations, but also surpasses most competitors on in-domain data.DetAny3D sheds light on the potential of the 3D foundation model for diverse applications in real-world scenarios, e.g., rare object detection in autonomous driving, and demonstrates promise for further exploration of 3D-centric tasks in open-world settings. More visualization results can be found at DetAny3D project page.

arxiv情報

著者 Hanxue Zhang,Haoran Jiang,Qingsong Yao,Yanan Sun,Renrui Zhang,Hao Zhao,Hongyang Li,Hongzi Zhu,Zetong Yang
発行日 2025-04-10 17:59:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Detect Anything 3D in the Wild はコメントを受け付けていません

CCMNet: Leveraging Calibrated Color Correction Matrices for Cross-Camera Color Constancy

要約

計算色の恒常性、または白いバランスは、シーン照明から鋳造された色を修正するカメラの画像信号プロセッサ(ISP)の重要なモジュールです。
この操作はカメラ固有の生の色空間で発生するため、ホワイトバランスアルゴリズムは異なるカメラに適応する必要があります。
このペーパーでは、再訓練なしで新しいカメラに一般化するカメラ色の恒常性の学習ベースの方法を紹介します。
私たちの方法は、カメラの生の色空間を標準空間(Cie XYZなど)にマッピングするISPで利用可能な事前調整色補正マトリックス(CCM)を活用します。
私たちの方法では、これらのCCMを使用して、事前定義された照明の色(つまり、プランキアの遺伝子座に沿って)をテストカメラの生空間に変換します。
マッピングされた照明薬は、ネットワークが目に見えないカメラに適応できるようにするコンパクトカメラ指紋埋め込み(CFE)にエンコードされます。
トレーニング中に制限されたカメラとCCMSによる過剰フィッティングを防ぐために、カメラとCCMの間で補間するデータ増強技術を導入します。
複数のデータセットとバックボーンにわたる実験結果は、この方法が最先端のクロスカメラ色の恒常性を達成し、軽量であり、カメラISPで容易に入手できるデータにのみ依存することを示しています。

要約(オリジナル)

Computational color constancy, or white balancing, is a key module in a camera’s image signal processor (ISP) that corrects color casts from scene lighting. Because this operation occurs in the camera-specific raw color space, white balance algorithms must adapt to different cameras. This paper introduces a learning-based method for cross-camera color constancy that generalizes to new cameras without retraining. Our method leverages pre-calibrated color correction matrices (CCMs) available on ISPs that map the camera’s raw color space to a standard space (e.g., CIE XYZ). Our method uses these CCMs to transform predefined illumination colors (i.e., along the Planckian locus) into the test camera’s raw space. The mapped illuminants are encoded into a compact camera fingerprint embedding (CFE) that enables the network to adapt to unseen cameras. To prevent overfitting due to limited cameras and CCMs during training, we introduce a data augmentation technique that interpolates between cameras and their CCMs. Experimental results across multiple datasets and backbones show that our method achieves state-of-the-art cross-camera color constancy while remaining lightweight and relying only on data readily available in camera ISPs.

arxiv情報

著者 Dongyoung Kim,Mahmoud Afifi,Dongyun Kim,Michael S. Brown,Seon Joo Kim
発行日 2025-04-10 17:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CCMNet: Leveraging Calibrated Color Correction Matrices for Cross-Camera Color Constancy はコメントを受け付けていません

VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning

要約

拡散モデルの最近の進歩は、さまざまな画像生成タスクを大幅に進めています。
ただし、現在の主流のアプローチは、幅広い異なるニーズをサポートする場合に効率が限られているタスク固有のモデルの構築に焦点を当てています。
ユニバーサルモデルはこの制限に対処しようとしますが、一般化可能なタスク命令、適切なタスク分布、統一された建築設計など、重要な課題に直面しています。
これらの課題に取り組むために、普遍的な画像生成フレームワークであるVisualClozeを提案します。これは、幅広いドメイン内のタスク、目に見えないものへの一般化、目に見えない複数のタスクの統一、および逆生成をサポートします。
言語ベースのタスク命令に依存してタスクのあいまいさと弱い一般化につながる既存の方法とは異なり、視覚的なコンテキスト学習を統合して、モデルが視覚的なデモンストレーションからタスクを特定できるようにします。
一方、視覚的なタスク分布の固有のスパースは、タスク全体で転送可能な知識の学習を妨げます。
この目的のために、さまざまな相互に関連したタスクを確立し、タスク密度と転送可能な知識を高めるグラフ構造データセットであるGraph200Kを導入します。
さらに、統一された画像生成の定式化が画像の充填と一貫した目的を共有していることを明らかにし、アーキテクチャを変更せずに事前に訓練された浸漬モデルの強力な生成前の事前を活用できるようにします。

要約(オリジナル)

Recent progress in diffusion models significantly advances various image generation tasks. However, the current mainstream approach remains focused on building task-specific models, which have limited efficiency when supporting a wide range of different needs. While universal models attempt to address this limitation, they face critical challenges, including generalizable task instruction, appropriate task distributions, and unified architectural design. To tackle these challenges, we propose VisualCloze, a universal image generation framework, which supports a wide range of in-domain tasks, generalization to unseen ones, unseen unification of multiple tasks, and reverse generation. Unlike existing methods that rely on language-based task instruction, leading to task ambiguity and weak generalization, we integrate visual in-context learning, allowing models to identify tasks from visual demonstrations. Meanwhile, the inherent sparsity of visual task distributions hampers the learning of transferable knowledge across tasks. To this end, we introduce Graph200K, a graph-structured dataset that establishes various interrelated tasks, enhancing task density and transferable knowledge. Furthermore, we uncover that our unified image generation formulation shared a consistent objective with image infilling, enabling us to leverage the strong generative priors of pre-trained infilling models without modifying the architectures.

arxiv情報

著者 Zhong-Yu Li,Ruoyi Du,Juncheng Yan,Le Zhuo,Zhen Li,Peng Gao,Zhanyu Ma,Ming-Ming Cheng
発行日 2025-04-10 17:59:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning はコメントを受け付けていません

Interactive4D: Interactive 4D LiDAR Segmentation

要約

インタラクティブなセグメンテーションは、将来のLIDARデータセットの注釈プロセスを促進する上で重要な役割を果たします。
既存のアプローチは、各LIDARスキャンで個々のオブジェクトを順次セグメント化し、シーケンス全体でプロセスを繰り返します。これは冗長で効果がありません。
この作業では、インタラクティブ4Dセグメンテーションを提案します。これは、複数のLIDARスキャンの複数のオブジェクトを同時にセグメント化できるようにする新しいパラダイムと、Lidarデータの順番な性質を利用する単一反復で、重ね合わせの連続したLIDARスキャンに複数のオブジェクトをセグメント化する最初のインタラクティブ4DセグメンテーションモデルであるInteractive4Dを提案します。
インタラクティブセグメンテーションの実行中、私たちのモデルは時空全体を活用して、より効率的なセグメンテーションにつながります。
4Dボリュームで動作すると、時間の経過とともに一貫したインスタンスIDを直接提供し、追跡注釈も簡素化します。
さらに、Lidar Point Cloudsでのモデルトレーニングを成功させるには、クリックシミュレーションが重要であることを示します。
この目的のために、LIDARデータの特性により適したクリックシミュレーション戦略を設計します。
その精度と有効性を実証するために、Interactive4Dを複数のLIDARデータセットで評価します。ここでは、Interactive4Dが大きなマージンで新しい最先端を達成します。
https://vision.rwth-aachen.de/interactive4dでコードとモデルを公開します。

要約(オリジナル)

Interactive segmentation has an important role in facilitating the annotation process of future LiDAR datasets. Existing approaches sequentially segment individual objects at each LiDAR scan, repeating the process throughout the entire sequence, which is redundant and ineffective. In this work, we propose interactive 4D segmentation, a new paradigm that allows segmenting multiple objects on multiple LiDAR scans simultaneously, and Interactive4D, the first interactive 4D segmentation model that segments multiple objects on superimposed consecutive LiDAR scans in a single iteration by utilizing the sequential nature of LiDAR data. While performing interactive segmentation, our model leverages the entire space-time volume, leading to more efficient segmentation. Operating on the 4D volume, it directly provides consistent instance IDs over time and also simplifies tracking annotations. Moreover, we show that click simulations are crucial for successful model training on LiDAR point clouds. To this end, we design a click simulation strategy that is better suited for the characteristics of LiDAR data. To demonstrate its accuracy and effectiveness, we evaluate Interactive4D on multiple LiDAR datasets, where Interactive4D achieves a new state-of-the-art by a large margin. We publicly release the code and models at https://vision.rwth-aachen.de/Interactive4D.

arxiv情報

著者 Ilya Fradlin,Idil Esen Zulfikar,Kadir Yilmaz,Theodora Kontogianni,Bastian Leibe
発行日 2025-04-10 17:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Interactive4D: Interactive 4D LiDAR Segmentation はコメントを受け付けていません

VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning

要約

補強学習における最近の進歩により、マルチモーダルの大手言語モデル(MLLM)の推論能力が大幅に進歩しました。
グループ相対ポリシーの最適化(GRPO)やルールベースの報酬メカニズムなどのアプローチは、テキストおよび画像ドメインの約束を示していますが、ビデオ理解への適用は依然として限られています。
このペーパーでは、一般的な能力を維持しながら時空間知覚を強化することを目的とした、ビデオMLLMSのGRPOを使用した補強微調整(RFT)の体系的な調査を提示します。
私たちの実験は、RFTがタスク固有の改善のために非常にデータ効率が高いことを明らかにしています。
限られたサンプルを備えた空間的知覚目標に関するマルチタスクRFTを通じて、私たちは、チャット能力を犠牲にすることなく時空間知覚タスクの最先端のパフォーマンスを達成する強力なビデオMLLMであるVideoChat-R1を開発します。
QWEN2.5-VL-7Bと比較して、VideoChat-R1は、時間的接地(+31.8)やオブジェクト追跡(+31.2)などのタスクで数倍のパフォーマンスを高めます。
さらに、VideoMME(+0.9)、MVBench(+1.0)、知覚テスト(+0.9)などの一般的なQAベンチマークで大幅に改善されます。
私たちの調査結果は、ビデオMLLMSの特殊なタスク強化のためのRFTの可能性を強調しています。
私たちの作品が、ビデオMLLMSの将来のRL研究のための貴重な洞察を提供することを願っています。

要約(オリジナル)

Recent advancements in reinforcement learning have significantly advanced the reasoning capabilities of multimodal large language models (MLLMs). While approaches such as Group Relative Policy Optimization (GRPO) and rule-based reward mechanisms demonstrate promise in text and image domains, their application to video understanding remains limited. This paper presents a systematic exploration of Reinforcement Fine-Tuning (RFT) with GRPO for video MLLMs, aiming to enhance spatio-temporal perception while maintaining general capabilities. Our experiments reveal that RFT is highly data-efficient for task-specific improvements. Through multi-task RFT on spatio-temporal perception objectives with limited samples, we develop VideoChat-R1, a powerful video MLLM that achieves state-of-the-art performance on spatio-temporal perception tasks without sacrificing chat ability, while exhibiting emerging spatio-temporal reasoning abilities. Compared to Qwen2.5-VL-7B, VideoChat-R1 boosts performance several-fold in tasks like temporal grounding (+31.8) and object tracking (+31.2). Additionally, it significantly improves on general QA benchmarks such as VideoMME (+0.9), MVBench (+1.0), and Perception Test (+0.9). Our findings underscore the potential of RFT for specialized task enhancement of Video MLLMs. We hope our work offers valuable insights for future RL research in video MLLMs.

arxiv情報

著者 Xinhao Li,Ziang Yan,Desen Meng,Lu Dong,Xiangyu Zeng,Yinan He,Yali Wang,Yu Qiao,Yi Wang,Limin Wang
発行日 2025-04-10 16:28:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning はコメントを受け付けていません

GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography

要約

カメラの軌跡の設計は、ビデオ制作において重要な役割を果たし、監督の意図を伝え、視覚的なストーリーテリングを強化するための基本的なツールとして機能します。
映画撮影では、写真撮影の監督は、表現力豊かで意図的なフレーミングを実現するために、カメラの動きを細心の注意を払って作り上げます。
ただし、カメラの軌道生成の既存の方法は限られたままです。従来のアプローチは、幾何学的最適化または手作りの手続き型システムに依存していますが、最近の学習ベースの方法は、しばしば構造的バイアスを継承したり、テキストの整合を欠いたりして、創造的な統合を制約します。
この作業では、芸術的で表現力豊かなカメラの軌跡を生成するために、写真のディレクターの専門知識に触発された自動回帰モデルを紹介します。
最初に、フリーモービングカメラの軌跡、深さマップ、特定の動きの詳細なキャプション、シーンとの相互作用、および監督の意図を備えた29Kの実世界のショットを含む大規模なマルチモーダルデータセットであるDataDopを紹介します。
包括的で多様なデータベースのおかげで、テキストガイダンスとRGBD入力に基づいた高品質のコンテキスト対応カメラの移動生成のために、自動エレンジャリング、デコーダーのみの変圧器をさらに訓練します。
広範な実験では、既存の方法と比較して、ゲンドップはより良い制御可能性、より細かい粒子の調整、およびより高い運動安定性を提供することが示されています。
私たちのアプローチは、学習ベースの映画撮影の新しい基準を確立し、カメラ制御と映画制作の将来の進歩への道を開いていると考えています。
当社のプロジェクトWebサイト:https://kszpxxzmc.github.io/gendop/。

要約(オリジナル)

Camera trajectory design plays a crucial role in video production, serving as a fundamental tool for conveying directorial intent and enhancing visual storytelling. In cinematography, Directors of Photography meticulously craft camera movements to achieve expressive and intentional framing. However, existing methods for camera trajectory generation remain limited: Traditional approaches rely on geometric optimization or handcrafted procedural systems, while recent learning-based methods often inherit structural biases or lack textual alignment, constraining creative synthesis. In this work, we introduce an auto-regressive model inspired by the expertise of Directors of Photography to generate artistic and expressive camera trajectories. We first introduce DataDoP, a large-scale multi-modal dataset containing 29K real-world shots with free-moving camera trajectories, depth maps, and detailed captions in specific movements, interaction with the scene, and directorial intent. Thanks to the comprehensive and diverse database, we further train an auto-regressive, decoder-only Transformer for high-quality, context-aware camera movement generation based on text guidance and RGBD inputs, named GenDoP. Extensive experiments demonstrate that compared to existing methods, GenDoP offers better controllability, finer-grained trajectory adjustments, and higher motion stability. We believe our approach establishes a new standard for learning-based cinematography, paving the way for future advancements in camera control and filmmaking. Our project website: https://kszpxxzmc.github.io/GenDoP/.

arxiv情報

著者 Mengchen Zhang,Tong Wu,Jing Tan,Ziwei Liu,Gordon Wetzstein,Dahua Lin
発行日 2025-04-10 16:10:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography はコメントを受け付けていません