cs.CV」カテゴリーアーカイブ

SophiaVL-R1: Reinforcing MLLMs Reasoning with Thinking Reward

要約 最近の進歩は、結果報酬を備えたルールベースの強化学習(RL)を通じて、マル … 続きを読む

カテゴリー: cs.CV | SophiaVL-R1: Reinforcing MLLMs Reasoning with Thinking Reward はコメントを受け付けていません

GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning

要約 視覚生成モデルは、テキストプロンプトから現実的な画像を作成する際に顕著な進 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning はコメントを受け付けていません

ARB: A Comprehensive Arabic Multimodal Reasoning Benchmark

要約 大規模なマルチモーダルモデル(LMM)がより能力が高まるにつれて、最終出力 … 続きを読む

カテゴリー: cs.CV | ARB: A Comprehensive Arabic Multimodal Reasoning Benchmark はコメントを受け付けていません

AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving

要約 ビジョン言語モデル(VLM)は、自律運転の約束を示していますが、幻覚との闘 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.RO | AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving はコメントを受け付けていません

GUI-G1: Understanding R1-Zero-Like Training for Visual Grounding in GUI Agents

要約 最近のグラフィカルユーザーインターフェイス(GUI)エージェントは、R1- … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | GUI-G1: Understanding R1-Zero-Like Training for Visual Grounding in GUI Agents はコメントを受け付けていません

FaVoR: Features via Voxel Rendering for Camera Relocalization

要約 カメラの再局在化方法は、密な画像アライメントからクエリ画像からの直接カメラ … 続きを読む

カテゴリー: cs.CV, cs.RO | FaVoR: Features via Voxel Rendering for Camera Relocalization はコメントを受け付けていません

R3GS: Gaussian Splatting for Robust Reconstruction and Relocalization in Unconstrained Image Collections

要約 制約のないデータセットに合わせて調整された堅牢な再構築と再局在化フレームワ … 続きを読む

カテゴリー: cs.CV, cs.RO | R3GS: Gaussian Splatting for Robust Reconstruction and Relocalization in Unconstrained Image Collections はコメントを受け付けていません

AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving

要約 ビジョン言語モデル(VLM)は、自律運転の約束を示していますが、幻覚との闘 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.RO | AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving はコメントを受け付けていません

RAZER: Robust Accelerated Zero-Shot 3D Open-Vocabulary Panoptic Reconstruction with Spatio-Temporal Aggregation

要約 複雑な3D環境のマッピングと理解は、自律システムが物理的世界とどのように知 … 続きを読む

カテゴリー: cs.CV, cs.RO | RAZER: Robust Accelerated Zero-Shot 3D Open-Vocabulary Panoptic Reconstruction with Spatio-Temporal Aggregation はコメントを受け付けていません

DLO-Splatting: Tracking Deformable Linear Objects Using 3D Gaussian Splatting

要約 この作業は、予測アップデートフィルタリングを介して、マルチビューRGB画像 … 続きを読む

カテゴリー: cs.CV, cs.RO | DLO-Splatting: Tracking Deformable Linear Objects Using 3D Gaussian Splatting はコメントを受け付けていません