-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
V2PE: Improving Multimodal Long-Context Capability of Vision-Language Models with Variable Visual Position Encoding
要約 ビジョン言語モデル (VLM) は、さまざまなマルチモーダル タスクの処理 … 続きを読む
カテゴリー: cs.CV
V2PE: Improving Multimodal Long-Context Capability of Vision-Language Models with Variable Visual Position Encoding はコメントを受け付けていません
DriveMM: All-in-One Large Multimodal Model for Autonomous Driving
要約 大規模マルチモーダル モデル (LMM) は、大規模な言語モデルを組み込む … 続きを読む
QueSTMaps: Queryable Semantic Topological Maps for 3D Scene Understanding
要約 計画やナビゲーションなどのロボット タスクでは、複数のフロアや部屋が含まれ … 続きを読む
Good Grasps Only: A data engine for self-supervised fine-tuning of pose estimation using grasp poses for verification
要約 この論文では、姿勢推定の自己教師あり微調整のための新しい方法を紹介します。 … 続きを読む
Multi-Stage Segmentation and Cascade Classification Methods for Improving Cardiac MRI Analysis
要約 心臓磁気共鳴画像のセグメント化と分類は心臓の状態を診断するために重要ですが … 続きを読む
Learned Compression for Compressed Learning
要約 最新のセンサーは、ますます豊富な高解像度データのストリームを生成します。 … 続きを読む
MOS: Model Surgery for Pre-Trained Model-Based Class-Incremental Learning
要約 クラス増分学習 (CIL) では、モデルが古いクラスを忘れることなく新しい … 続きを読む
EVQAScore: Efficient Video Question Answering Data Evaluation
要約 ビデオの質問応答 (QA) は、ビデオを理解する上で中心的なタスクです。 … 続きを読む
Causal Graphical Models for Vision-Language Compositional Understanding
要約 最近の研究では、視覚言語モデル (VLM) が人間の言語の構成特性を完全に … 続きを読む
All You Need in Knowledge Distillation Is a Tailored Coordinate System
要約 知識蒸留 (KD) は、暗い知識を大規模な教師から小規模な生徒ネットワーク … 続きを読む