「cs.CV」カテゴリーアーカイブ

COSMO: Combination of Selective Memorization for Low-cost Vision-and-Language Navigation

投稿日: 2025年4月1日作成者: jarxiv

要約ビジョンと言語のナビゲーション（VLN）タスクは、ホームアシスタントのよう … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

From Colors to Classes: Emergence of Concepts in Vision Transformers

投稿日: 2025年4月1日作成者: jarxiv

要約ビジョントランス（VITS）は、強力な表現能力により、さまざまなコンピュー … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

MoMuSE: Momentum Multi-modal Target Speaker Extraction for Real-time Scenarios with Impaired Visual Cues

投稿日: 2025年4月1日作成者: jarxiv

要約オーディオビジュアルターゲットスピーカー抽出（AV-TSE）は、時間同期さ … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

DH-Mamba: Exploring Dual-domain Hierarchical State Space Models for MRI Reconstruction

投稿日: 2025年4月1日作成者: jarxiv

要約加速されたMRI再構成は、Kスペースの著しいアンダーサンプリングのために、 … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

A Plasticity-Aware Method for Continual Self-Supervised Learning in Remote Sensing

投稿日: 2025年4月1日作成者: jarxiv

要約継続的な自己学習学習（CSSL）方法は、非標識データの連続ストリームから新 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Gen3DSR: Generalizable 3D Scene Reconstruction via Divide and Conquer from a Single View

投稿日: 2025年4月1日作成者: jarxiv

要約シングルビュー3D再構成は現在、2つの支配的な観点からアプローチされていま … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

4D mmWave Radar in Adverse Environments for Autonomous Driving: A Survey

投稿日: 2025年4月1日作成者: jarxiv

要約自律運転システムには、正確で信頼できる認識が必要です。ただし、雨、雪、霧 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

DANTE-AD: Dual-Vision Attention Network for Long-Term Audio Description

投稿日: 2025年4月1日作成者: jarxiv

要約オーディオの説明は、ビデオの重要な視覚要素を知覚する際にビジョン障害のある … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

PolypSegTrack: Unified Foundation Model for Colonoscopy Video Analysis

投稿日: 2025年4月1日作成者: jarxiv

要約大腸内視鏡検査中のポリープの早期発見、正確なセグメンテーション、分類、追跡 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

IMPACT: A Generic Semantic Loss for Multimodal Medical Image Registration

投稿日: 2025年4月1日作成者: jarxiv

要約画像登録は医療イメージングの基本であり、診断、治療計画、画像誘導治療、また … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

COSMO: Combination of Selective Memorization for Low-cost Vision-and-Language Navigation

From Colors to Classes: Emergence of Concepts in Vision Transformers

MoMuSE: Momentum Multi-modal Target Speaker Extraction for Real-time Scenarios with Impaired Visual Cues

DH-Mamba: Exploring Dual-domain Hierarchical State Space Models for MRI Reconstruction

A Plasticity-Aware Method for Continual Self-Supervised Learning in Remote Sensing

Gen3DSR: Generalizable 3D Scene Reconstruction via Divide and Conquer from a Single View

4D mmWave Radar in Adverse Environments for Autonomous Driving: A Survey

DANTE-AD: Dual-Vision Attention Network for Long-Term Audio Description

PolypSegTrack: Unified Foundation Model for Colonoscopy Video Analysis

IMPACT: A Generic Semantic Loss for Multimodal Medical Image Registration

最近の投稿

最近のコメント

アーカイブ

カテゴリー