cs.CV」カテゴリーアーカイブ

MME-Unify: A Comprehensive Benchmark for Unified Multimodal Understanding and Generation Models

要約 既存のMLLMベンチマークは、次のために統一されたMLLM(U-MLLM) … 続きを読む

カテゴリー: cs.CV | MME-Unify: A Comprehensive Benchmark for Unified Multimodal Understanding and Generation Models はコメントを受け付けていません

ZFusion: An Effective Fuser of Camera and 4D Radar for 3D Object Perception in Autonomous Driving

要約 信頼できる3Dオブジェクトの知覚は、自律運転に不可欠です。 すべての気象条 … 続きを読む

カテゴリー: cs.CV | ZFusion: An Effective Fuser of Camera and 4D Radar for 3D Object Perception in Autonomous Driving はコメントを受け付けていません

HumanDreamer-X: Photorealistic Single-image Human Avatars Reconstruction via Gaussian Restoration

要約 シングルイメージの人間の再構築は、デジタルヒューマンモデリングアプリケーシ … 続きを読む

カテゴリー: cs.CV | HumanDreamer-X: Photorealistic Single-image Human Avatars Reconstruction via Gaussian Restoration はコメントを受け付けていません

Floxels: Fast Unsupervised Voxel Based Scene Flow Estimation

要約 シーンフロー推定は、ロバストな動的物体検出、自動ラベリング、センサー同期な … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | Floxels: Fast Unsupervised Voxel Based Scene Flow Estimation はコメントを受け付けていません

Towards Mobile Sensing with Event Cameras on High-agility Resource-constrained Devices: A Survey

要約 モバイル機器アプリケーションの複雑化に伴い、これらの機器は高い俊敏性を目指 … 続きを読む

カテゴリー: cs.CV, cs.RO | Towards Mobile Sensing with Event Cameras on High-agility Resource-constrained Devices: A Survey はコメントを受け付けていません

FoundationStereo: Zero-Shot Stereo Matching

要約 ディープステレオマッチングでは、ドメインごとの微調整により、ベンチマークデ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | FoundationStereo: Zero-Shot Stereo Matching はコメントを受け付けていません

GraphSeg: Segmented 3D Representations via Graph Edge Addition and Contraction

要約 非構造化環境で動作するロボットは、多くの場合、正確で一貫性のあるオブジェク … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO, cs.SY, eess.SY | GraphSeg: Segmented 3D Representations via Graph Edge Addition and Contraction はコメントを受け付けていません

Can DeepSeek Reason Like a Surgeon? An Empirical Evaluation for Vision-Language Understanding in Robotic-Assisted Surgery

要約 DeepSeekモデルは、その効率的な学習パラダイムと強力な推論能力により … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.RO | Can DeepSeek Reason Like a Surgeon? An Empirical Evaluation for Vision-Language Understanding in Robotic-Assisted Surgery はコメントを受け付けていません

Real-Time Roadway Obstacle Detection for Electric Scooters Using Deep Learning and Multi-Sensor Fusion

要約 都市部における電動スクーター(eスクーター)の普及は、その小さな車輪、サス … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | Real-Time Roadway Obstacle Detection for Electric Scooters Using Deep Learning and Multi-Sensor Fusion はコメントを受け付けていません

3D-Mem: 3D Scene Memory for Embodied Exploration and Reasoning

要約 コンパクトで情報量の多い3Dシーン表現を構築することは、特に長時間に渡る複 … 続きを読む

カテゴリー: cs.CV, cs.RO | 3D-Mem: 3D Scene Memory for Embodied Exploration and Reasoning はコメントを受け付けていません