-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Towards Unifying Understanding and Generation in the Era of Vision Foundation Models: A Survey from the Autoregression Perspective
要約 大規模言語モデル (LLM) の自己回帰は、すべての言語タスクを次のトーク … 続きを読む
カテゴリー: cs.CV
Towards Unifying Understanding and Generation in the Era of Vision Foundation Models: A Survey from the Autoregression Perspective はコメントを受け付けていません
Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Datasets
要約 視覚表現の事前トレーニングにより、ロボットの学習効率が向上しました。 大規 … 続きを読む
EI-Nexus: Towards Unmediated and Flexible Inter-Modality Local Feature Extraction and Matching for Event-Image Data
要約 イベント カメラは、高い時間解像度と高いダイナミック レンジを備えているた … 続きを読む
Generalizing Motion Planners with Mixture of Experts for Autonomous Driving
要約 大規模な現実世界の運転データセットは、自動運転のためのデータ駆動型モーショ … 続きを読む
DOFS: A Real-world 3D Deformable Object Dataset with Full Spatial Information for Dynamics Model Learning
要約 この研究では、DOFS を提案します。これは、新しい低コストのデータ収集プ … 続きを読む
ActiveSplat: High-Fidelity Scene Reconstruction through Active Gaussian Splatting
要約 私たちは、ガウス スプラッティングを活用した自律的な高忠実度再構成システム … 続きを読む
SMART: Scalable Multi-agent Real-time Generation via Next-token Prediction
要約 データ駆動型の自動運転モーション生成タスクは、データセット サイズの制限と … 続きを読む
Non-rigid Relative Placement through 3D Dense Diffusion
要約 「相対配置」のタスクは、あるオブジェクトの別のオブジェクトに対する配置を予 … 続きを読む
Are VLMs Really Blind
要約 ビジョン言語モデルは、光学式文字認識 (OCR)、視覚的質問応答 (VQA … 続きを読む
No ‘Zero-Shot’ Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance
要約 Web クロールされた事前トレーニング データセットは、分類/検索用の C … 続きを読む