投稿者「jarxiv」のアーカイブ

Perception-R1: Pioneering Perception Policy with Reinforcement Learning

投稿日: 2025年4月11日作成者: jarxiv

要約 DeepSeek-R1の成功に触発されて、知覚政策学習のためのトレーニング … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

BoxDreamer: Dreaming Box Corners for Generalizable Object Pose Estimation

投稿日: 2025年4月11日作成者: jarxiv

要約このペーパーでは、オブジェクトポーズ推定のための一般化可能なRGBベースの … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

VCR-Bench: A Comprehensive Evaluation Framework for Video Chain-of-Thought Reasoning

投稿日: 2025年4月11日作成者: jarxiv

要約考え方（COT）の推論の進歩により、大規模な言語モデル（LLMS）と大規模 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

MM-IFEngine: Towards Multimodal Instruction Following

投稿日: 2025年4月11日作成者: jarxiv

要約次の（IF）能力は、マルチモーダルの大手言語モデル（MLLM）がどの程度よ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Detect Anything 3D in the Wild

投稿日: 2025年4月11日作成者: jarxiv

要約密集した3Dオブジェクトの検出における深い学習の成功にもかかわらず、既存の … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

CCMNet: Leveraging Calibrated Color Correction Matrices for Cross-Camera Color Constancy

投稿日: 2025年4月11日作成者: jarxiv

要約計算色の恒常性、または白いバランスは、シーン照明から鋳造された色を修正する … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning

投稿日: 2025年4月11日作成者: jarxiv

要約拡散モデルの最近の進歩は、さまざまな画像生成タスクを大幅に進めています。 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Interactive4D: Interactive 4D LiDAR Segmentation

投稿日: 2025年4月11日作成者: jarxiv

要約インタラクティブなセグメンテーションは、将来のLIDARデータセットの注釈 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning

投稿日: 2025年4月11日作成者: jarxiv

要約補強学習における最近の進歩により、マルチモーダルの大手言語モデル（MLLM … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography

投稿日: 2025年4月11日作成者: jarxiv

要約カメラの軌跡の設計は、ビデオ制作において重要な役割を果たし、監督の意図を伝 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

投稿者「jarxiv」のアーカイブ

Perception-R1: Pioneering Perception Policy with Reinforcement Learning

BoxDreamer: Dreaming Box Corners for Generalizable Object Pose Estimation

VCR-Bench: A Comprehensive Evaluation Framework for Video Chain-of-Thought Reasoning

MM-IFEngine: Towards Multimodal Instruction Following

Detect Anything 3D in the Wild

CCMNet: Leveraging Calibrated Color Correction Matrices for Cross-Camera Color Constancy

VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning

Interactive4D: Interactive 4D LiDAR Segmentation

VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning

GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography

最近の投稿

最近のコメント

アーカイブ

カテゴリー