cs.CV」カテゴリーアーカイブ

Towards Unifying Understanding and Generation in the Era of Vision Foundation Models: A Survey from the Autoregression Perspective

要約 大規模言語モデル (LLM) の自己回帰は、すべての言語タスクを次のトーク … 続きを読む

カテゴリー: cs.CV | Towards Unifying Understanding and Generation in the Era of Vision Foundation Models: A Survey from the Autoregression Perspective はコメントを受け付けていません

Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Datasets

要約 視覚表現の事前トレーニングにより、ロボットの学習効率が向上しました。 大規 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Datasets はコメントを受け付けていません

EI-Nexus: Towards Unmediated and Flexible Inter-Modality Local Feature Extraction and Matching for Event-Image Data

要約 イベント カメラは、高い時間解像度と高いダイナミック レンジを備えているた … 続きを読む

カテゴリー: cs.CV, cs.RO, eess.IV | EI-Nexus: Towards Unmediated and Flexible Inter-Modality Local Feature Extraction and Matching for Event-Image Data はコメントを受け付けていません

Generalizing Motion Planners with Mixture of Experts for Autonomous Driving

要約 大規模な現実世界の運転データセットは、自動運転のためのデータ駆動型モーショ … 続きを読む

カテゴリー: cs.CV, cs.RO | Generalizing Motion Planners with Mixture of Experts for Autonomous Driving はコメントを受け付けていません

DOFS: A Real-world 3D Deformable Object Dataset with Full Spatial Information for Dynamics Model Learning

要約 この研究では、DOFS を提案します。これは、新しい低コストのデータ収集プ … 続きを読む

カテゴリー: cs.CV, cs.RO | DOFS: A Real-world 3D Deformable Object Dataset with Full Spatial Information for Dynamics Model Learning はコメントを受け付けていません

ActiveSplat: High-Fidelity Scene Reconstruction through Active Gaussian Splatting

要約 私たちは、ガウス スプラッティングを活用した自律的な高忠実度再構成システム … 続きを読む

カテゴリー: cs.CV, cs.RO | ActiveSplat: High-Fidelity Scene Reconstruction through Active Gaussian Splatting はコメントを受け付けていません

SMART: Scalable Multi-agent Real-time Generation via Next-token Prediction

要約 データ駆動型の自動運転モーション生成タスクは、データセット サイズの制限と … 続きを読む

カテゴリー: cs.CV, cs.RO | SMART: Scalable Multi-agent Real-time Generation via Next-token Prediction はコメントを受け付けていません

Non-rigid Relative Placement through 3D Dense Diffusion

要約 「相対配置」のタスクは、あるオブジェクトの別のオブジェクトに対する配置を予 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Non-rigid Relative Placement through 3D Dense Diffusion はコメントを受け付けていません

Are VLMs Really Blind

要約 ビジョン言語モデルは、光学式文字認識 (OCR)、視覚的質問応答 (VQA … 続きを読む

カテゴリー: cs.CL, cs.CV | Are VLMs Really Blind はコメントを受け付けていません

No ‘Zero-Shot’ Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance

要約 Web クロールされた事前トレーニング データセットは、分類/検索用の C … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | No ‘Zero-Shot’ Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance はコメントを受け付けていません