「cs.CV」カテゴリーアーカイブ

Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention

投稿日: 2024年8月16日作成者: jarxiv

要約感情を理解することは、人間のコミュニケーションの基本的な側面です。オーデ … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM, cs.SD, eess.AS, F.2.2 | コメントを受け付けていません

Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models

投稿日: 2024年8月16日作成者: jarxiv

要約この論文では、テーブルトップシナリオにおけるオープンエンドの対話型ロボッ … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.RO | コメントを受け付けていません

OC3D: Weakly Supervised Outdoor 3D Object Detection with Only Coarse Click Annotation

投稿日: 2024年8月16日作成者: jarxiv

要約 LiDAR ベースの屋外 3D 物体検出は広く注目を集めています。ただし … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Label Dropout: Improved Deep Learning Echocardiography Segmentation Using Multiple Datasets With Domain Shift and Partial Labelling

投稿日: 2024年8月16日作成者: jarxiv

要約心エコー検査（エコー）は、心臓機能を評価する際に使用される最初の画像診断法 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Multimodal Causal Reasoning Benchmark: Challenging Vision Large Language Models to Infer Causal Links Between Siamese Images

投稿日: 2024年8月16日作成者: jarxiv

要約大規模言語モデル (LLM) は、テキスト情報からの因果推論において優れた … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Multi-Modality Co-Learning for Efficient Skeleton-based Action Recognition

投稿日: 2024年8月16日作成者: jarxiv

要約スケルトンベースの行動認識は、簡潔で弾力性のあるスケルトンを利用するため、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Dual-Camera Smooth Zoom on Mobile Phones

投稿日: 2024年8月16日作成者: jarxiv

要約モバイル上のデュアルカメラ間でズームすると、幾何学的コンテンツと画像の色 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Get Your Embedding Space in Order: Domain-Adaptive Regression for Forest Monitoring

投稿日: 2024年8月16日作成者: jarxiv

要約画像レベルの回帰は地球観察における重要なタスクであり、視覚領域とラベルのシ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Category-Prompt Refined Feature Learning for Long-Tailed Multi-Label Image Classification

投稿日: 2024年8月16日作成者: jarxiv

要約現実世界のデータは一貫してロングテール分布を示し、多くの場合複数のカテゴリ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

REFRAME: Reflective Surface Real-Time Rendering for Mobile Devices

投稿日: 2024年8月16日作成者: jarxiv

要約この作品は、さまざまなシーンにわたる反射面のリアルタイムの新しいビュー合成 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention

Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models

OC3D: Weakly Supervised Outdoor 3D Object Detection with Only Coarse Click Annotation

Label Dropout: Improved Deep Learning Echocardiography Segmentation Using Multiple Datasets With Domain Shift and Partial Labelling

Multimodal Causal Reasoning Benchmark: Challenging Vision Large Language Models to Infer Causal Links Between Siamese Images

Multi-Modality Co-Learning for Efficient Skeleton-based Action Recognition

Dual-Camera Smooth Zoom on Mobile Phones

Get Your Embedding Space in Order: Domain-Adaptive Regression for Forest Monitoring

Category-Prompt Refined Feature Learning for Long-Tailed Multi-Label Image Classification

REFRAME: Reflective Surface Real-Time Rendering for Mobile Devices

最近の投稿

最近のコメント

アーカイブ

カテゴリー