cs.CV」カテゴリーアーカイブ

V2PE: Improving Multimodal Long-Context Capability of Vision-Language Models with Variable Visual Position Encoding

要約 ビジョン言語モデル (VLM) は、さまざまなマルチモーダル タスクの処理 … 続きを読む

カテゴリー: cs.CV | V2PE: Improving Multimodal Long-Context Capability of Vision-Language Models with Variable Visual Position Encoding はコメントを受け付けていません

DriveMM: All-in-One Large Multimodal Model for Autonomous Driving

要約 大規模マルチモーダル モデル (LMM) は、大規模な言語モデルを組み込む … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.RO | DriveMM: All-in-One Large Multimodal Model for Autonomous Driving はコメントを受け付けていません

QueSTMaps: Queryable Semantic Topological Maps for 3D Scene Understanding

要約 計画やナビゲーションなどのロボット タスクでは、複数のフロアや部屋が含まれ … 続きを読む

カテゴリー: cs.CV, cs.RO | QueSTMaps: Queryable Semantic Topological Maps for 3D Scene Understanding はコメントを受け付けていません

Good Grasps Only: A data engine for self-supervised fine-tuning of pose estimation using grasp poses for verification

要約 この論文では、姿勢推定の自己教師あり微調整のための新しい方法を紹介します。 … 続きを読む

カテゴリー: cs.CV, cs.RO | Good Grasps Only: A data engine for self-supervised fine-tuning of pose estimation using grasp poses for verification はコメントを受け付けていません

Multi-Stage Segmentation and Cascade Classification Methods for Improving Cardiac MRI Analysis

要約 心臓磁気共鳴画像のセグメント化と分類は心臓の状態を診断するために重要ですが … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.IV, G.3 | Multi-Stage Segmentation and Cascade Classification Methods for Improving Cardiac MRI Analysis はコメントを受け付けていません

Learned Compression for Compressed Learning

要約 最新のセンサーは、ますます豊富な高解像度データのストリームを生成します。 … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.AS, eess.IV, eess.SP | Learned Compression for Compressed Learning はコメントを受け付けていません

MOS: Model Surgery for Pre-Trained Model-Based Class-Incremental Learning

要約 クラス増分学習 (CIL) では、モデルが古いクラスを忘れることなく新しい … 続きを読む

カテゴリー: cs.CV, cs.LG | MOS: Model Surgery for Pre-Trained Model-Based Class-Incremental Learning はコメントを受け付けていません

EVQAScore: Efficient Video Question Answering Data Evaluation

要約 ビデオの質問応答 (QA) は、ビデオを理解する上で中心的なタスクです。 … 続きを読む

カテゴリー: cs.CL, cs.CV | EVQAScore: Efficient Video Question Answering Data Evaluation はコメントを受け付けていません

Causal Graphical Models for Vision-Language Compositional Understanding

要約 最近の研究では、視覚言語モデル (VLM) が人間の言語の構成特性を完全に … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Causal Graphical Models for Vision-Language Compositional Understanding はコメントを受け付けていません

All You Need in Knowledge Distillation Is a Tailored Coordinate System

要約 知識蒸留 (KD) は、暗い知識を大規模な教師から小規模な生徒ネットワーク … 続きを読む

カテゴリー: cs.AI, cs.CV | All You Need in Knowledge Distillation Is a Tailored Coordinate System はコメントを受け付けていません