cs.CV」カテゴリーアーカイブ

Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention

要約 感情を理解することは、人間のコミュニケーションの基本的な側面です。 オーデ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM, cs.SD, eess.AS, F.2.2 | Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention はコメントを受け付けていません

Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models

要約 この論文では、テーブルトップ シナリオにおけるオープンエンドの対話型ロボッ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.RO | Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models はコメントを受け付けていません

OC3D: Weakly Supervised Outdoor 3D Object Detection with Only Coarse Click Annotation

要約 LiDAR ベースの屋外 3D 物体検出は広く注目を集めています。 ただし … 続きを読む

カテゴリー: cs.AI, cs.CV | OC3D: Weakly Supervised Outdoor 3D Object Detection with Only Coarse Click Annotation はコメントを受け付けていません

Label Dropout: Improved Deep Learning Echocardiography Segmentation Using Multiple Datasets With Domain Shift and Partial Labelling

要約 心エコー検査(エコー)は、心臓機能を評価する際に使用される最初の画像診断法 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Label Dropout: Improved Deep Learning Echocardiography Segmentation Using Multiple Datasets With Domain Shift and Partial Labelling はコメントを受け付けていません

Multimodal Causal Reasoning Benchmark: Challenging Vision Large Language Models to Infer Causal Links Between Siamese Images

要約 大規模言語モデル (LLM) は、テキスト情報からの因果推論において優れた … 続きを読む

カテゴリー: cs.AI, cs.CV | Multimodal Causal Reasoning Benchmark: Challenging Vision Large Language Models to Infer Causal Links Between Siamese Images はコメントを受け付けていません

Multi-Modality Co-Learning for Efficient Skeleton-based Action Recognition

要約 スケルトンベースの行動認識は、簡潔で弾力性のあるスケルトンを利用するため、 … 続きを読む

カテゴリー: cs.CV | Multi-Modality Co-Learning for Efficient Skeleton-based Action Recognition はコメントを受け付けていません

Dual-Camera Smooth Zoom on Mobile Phones

要約 モバイル上のデュアル カメラ間でズームすると、幾何学的コンテンツと画像の色 … 続きを読む

カテゴリー: cs.CV | Dual-Camera Smooth Zoom on Mobile Phones はコメントを受け付けていません

Get Your Embedding Space in Order: Domain-Adaptive Regression for Forest Monitoring

要約 画像レベルの回帰は地球観察における重要なタスクであり、視覚領域とラベルのシ … 続きを読む

カテゴリー: cs.CV | Get Your Embedding Space in Order: Domain-Adaptive Regression for Forest Monitoring はコメントを受け付けていません

Category-Prompt Refined Feature Learning for Long-Tailed Multi-Label Image Classification

要約 現実世界のデータは一貫してロングテール分布を示し、多くの場合複数のカテゴリ … 続きを読む

カテゴリー: cs.CV | Category-Prompt Refined Feature Learning for Long-Tailed Multi-Label Image Classification はコメントを受け付けていません

REFRAME: Reflective Surface Real-Time Rendering for Mobile Devices

要約 この作品は、さまざまなシーンにわたる反射面のリアルタイムの新しいビュー合成 … 続きを読む

カテゴリー: cs.CV | REFRAME: Reflective Surface Real-Time Rendering for Mobile Devices はコメントを受け付けていません