「cs.CV」カテゴリーアーカイブ

SophiaVL-R1: Reinforcing MLLMs Reasoning with Thinking Reward

投稿日: 2025年5月23日作成者: jarxiv

要約最近の進歩は、結果報酬を備えたルールベースの強化学習（RL）を通じて、マル … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning

投稿日: 2025年5月23日作成者: jarxiv

要約視覚生成モデルは、テキストプロンプトから現実的な画像を作成する際に顕著な進 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

ARB: A Comprehensive Arabic Multimodal Reasoning Benchmark

投稿日: 2025年5月23日作成者: jarxiv

要約大規模なマルチモーダルモデル（LMM）がより能力が高まるにつれて、最終出力 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving

投稿日: 2025年5月23日作成者: jarxiv

要約ビジョン言語モデル（VLM）は、自律運転の約束を示していますが、幻覚との闘 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.RO | コメントを受け付けていません

GUI-G1: Understanding R1-Zero-Like Training for Visual Grounding in GUI Agents

投稿日: 2025年5月23日作成者: jarxiv

要約最近のグラフィカルユーザーインターフェイス（GUI）エージェントは、R1- … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

FaVoR: Features via Voxel Rendering for Camera Relocalization

投稿日: 2025年5月22日作成者: jarxiv

要約カメラの再局在化方法は、密な画像アライメントからクエリ画像からの直接カメラ … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

R3GS: Gaussian Splatting for Robust Reconstruction and Relocalization in Unconstrained Image Collections

投稿日: 2025年5月22日作成者: jarxiv

要約制約のないデータセットに合わせて調整された堅牢な再構築と再局在化フレームワ … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving

投稿日: 2025年5月22日作成者: jarxiv

要約ビジョン言語モデル（VLM）は、自律運転の約束を示していますが、幻覚との闘 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.RO | コメントを受け付けていません

RAZER: Robust Accelerated Zero-Shot 3D Open-Vocabulary Panoptic Reconstruction with Spatio-Temporal Aggregation

投稿日: 2025年5月22日作成者: jarxiv

要約複雑な3D環境のマッピングと理解は、自律システムが物理的世界とどのように知 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

DLO-Splatting: Tracking Deformable Linear Objects Using 3D Gaussian Splatting

投稿日: 2025年5月22日作成者: jarxiv

要約この作業は、予測アップデートフィルタリングを介して、マルチビューRGB画像 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

SophiaVL-R1: Reinforcing MLLMs Reasoning with Thinking Reward

GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning

ARB: A Comprehensive Arabic Multimodal Reasoning Benchmark

AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving

GUI-G1: Understanding R1-Zero-Like Training for Visual Grounding in GUI Agents

FaVoR: Features via Voxel Rendering for Camera Relocalization

R3GS: Gaussian Splatting for Robust Reconstruction and Relocalization in Unconstrained Image Collections

AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving

RAZER: Robust Accelerated Zero-Shot 3D Open-Vocabulary Panoptic Reconstruction with Spatio-Temporal Aggregation

DLO-Splatting: Tracking Deformable Linear Objects Using 3D Gaussian Splatting

最近の投稿

最近のコメント

アーカイブ

カテゴリー