-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Shape-Based Single Object Classification Using Ensemble Method Classifiers
要約 最近は画像も増えてきています。 画像の注釈付けと取得は分類の問題を引き起こ … 続きを読む
Vision-Language Models Do Not Understand Negation
要約 多くの実用的なビジョン言語アプリケーションでは、自然言語を使用して特定のオ … 続きを読む
RE-POSE: Synergizing Reinforcement Learning-Based Partitioning and Offloading for Edge Object Detection
要約 物体検出は、自動運転やセキュリティからスマートシティに至るまで、幅広い用途 … 続きを読む
DriveLM: Driving with Graph Visual Question Answering
要約 私たちは、Web スケールのデータでトレーニングされたビジョン言語モデル … 続きを読む
カテゴリー: cs.CV
DriveLM: Driving with Graph Visual Question Answering はコメントを受け付けていません
DEFOM-Stereo: Depth Foundation Model Based Stereo Matching
要約 ステレオ マッチングは、コンピューター ビジョンとロボット工学におけるメト … 続きを読む
カテゴリー: cs.CV
DEFOM-Stereo: Depth Foundation Model Based Stereo Matching はコメントを受け付けていません
Diffusion Models in Vision: A Survey
要約 ノイズ除去拡散モデルは、コンピュータ ビジョンにおける最近の新たなトピック … 続きを読む
MonoSOWA: Scalable monocular 3D Object detector Without human Annotations
要約 単一の RGB カメラを使用してオブジェクトの 3 次元の位置と方向を検出 … 続きを読む
The Devil is in the Details: Simple Remedies for Image-to-LiDAR Representation Learning
要約 LiDAR は自動運転において重要なセンサーであり、一般的にカメラと併用さ … 続きを読む
カテゴリー: cs.CV
The Devil is in the Details: Simple Remedies for Image-to-LiDAR Representation Learning はコメントを受け付けていません
Comparison of Various SLAM Systems for Mobile Robot in an Indoor Environment
要約 この記事では、さまざまな ROS ベースの SLAM システムによって計算 … 続きを読む
Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models
要約 大規模ビジョン言語モデル (LVLM) は、事前トレーニングされたビジョン … 続きを読む