cs.CV」カテゴリーアーカイブ

Nothing Stands Still: A Spatiotemporal Benchmark on 3D Point Cloud Registration Under Large Geometric and Temporal Change

要約 人工空間の 3D 幾何学マップの構築は、コンピューター ビジョンとロボット … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | Nothing Stands Still: A Spatiotemporal Benchmark on 3D Point Cloud Registration Under Large Geometric and Temporal Change はコメントを受け付けていません

AD-L-JEPA: Self-Supervised Spatial World Models with Joint Embedding Predictive Architecture for Autonomous Driving with LiDAR Data

要約 人間のドライバーとは対照的に、現在の自動運転システムは依然としてトレーニン … 続きを読む

カテゴリー: cs.CV, cs.RO | AD-L-JEPA: Self-Supervised Spatial World Models with Joint Embedding Predictive Architecture for Autonomous Driving with LiDAR Data はコメントを受け付けていません

ECBench: Can Multi-modal Foundation Models Understand the Egocentric World? A Holistic Embodied Cognition Benchmark

要約 大規模ビジョン言語モデル (LVLM) によるロボットの一般化の強化がます … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | ECBench: Can Multi-modal Foundation Models Understand the Egocentric World? A Holistic Embodied Cognition Benchmark はコメントを受け付けていません

A Systematic Literature Review on Deep Learning-based Depth Estimation in Computer Vision

要約 深度推定 (DE) は、シーンに関する空間情報を提供し、3D 再構成、オブ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | A Systematic Literature Review on Deep Learning-based Depth Estimation in Computer Vision はコメントを受け付けていません

Exosense: A Vision-Based Scene Understanding System For Exoskeletons

要約 自己平衡外骨格は、運動障害のある人にとって重要な技術です。 現在の課題は人 … 続きを読む

カテゴリー: cs.CV, cs.RO | Exosense: A Vision-Based Scene Understanding System For Exoskeletons はコメントを受け付けていません

Multi-Task Model Merging via Adaptive Weight Disentanglement

要約 モデルのマージは、さまざまなタスクからのタスク固有の重みを統合されたマルチ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | Multi-Task Model Merging via Adaptive Weight Disentanglement はコメントを受け付けていません

InfiFusion: A Unified Framework for Enhanced Cross-Model Reasoning via LLM Fusion

要約 大規模言語モデル (LLM) は、さまざまな推論タスクにわたって強力なパフ … 続きを読む

カテゴリー: cs.CL, cs.CV | InfiFusion: A Unified Framework for Enhanced Cross-Model Reasoning via LLM Fusion はコメントを受け付けていません

OneLLM: One Framework to Align All Modalities with Language

要約 マルチモーダル大規模言語モデル (MLLM) は、その強力なマルチモーダル … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | OneLLM: One Framework to Align All Modalities with Language はコメントを受け付けていません

Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model

要約 これまでの大規模ビジョン言語モデル (LVLM) のほとんどは、主に英語デ … 続きを読む

カテゴリー: cs.CL, cs.CV | Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model はコメントを受け付けていません

CoE: Deep Coupled Embedding for Non-Rigid Point Cloud Correspondences

要約 低コストの 3D センサーの普及により、生の点群として表現された非剛体変形 … 続きを読む

カテゴリー: cs.CV | CoE: Deep Coupled Embedding for Non-Rigid Point Cloud Correspondences はコメントを受け付けていません