「cs.MM」カテゴリーアーカイブ

DeSRA: Detect and Delete the Artifacts of GAN-based Real-World Super-Resolution Models

投稿日: 2023年7月6日作成者: jarxiv

要約敵対的生成ネットワーク (GAN) を使用した画像超解像度 (SR) は、 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs

投稿日: 2023年7月4日作成者: jarxiv

要約本研究では、画像や動画などの非言語的モダリティを含む理解・生成タスクをフロ … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM | コメントを受け付けていません

SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs

投稿日: 2023年7月3日作成者: jarxiv

要約この研究では、凍結された LLM が画像やビデオなどの非言語モダリティを含 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM | コメントを受け付けていません

$\mathbf{C}^2$Former: Calibrated and Complementary Transformer for RGB-Infrared Object Detection

投稿日: 2023年6月29日作成者: jarxiv

要約可視 (RGB) および赤外線 (IR) 画像での物体検出は、24 時間ア … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Learning to Pan-sharpening with Memories of Spatial Details

投稿日: 2023年6月29日作成者: jarxiv

要約パンシャープニングは、リモートセンシングシステムで最も一般的に使用され … 続きを読む →

カテゴリー: cs.CV, cs.MM, eess.IV | コメントを受け付けていません

High-Modality Multimodal Transformer: Quantifying Modality & Interaction Heterogeneity for High-Modality Representation Learning

投稿日: 2023年6月29日作成者: jarxiv

要約現実世界の問題の多くは、人間がコミュニケーションに使用する話し言葉、ジェス … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

MultiZoo & MultiBench: A Standardized Toolkit for Multimodal Deep Learning

投稿日: 2023年6月29日作成者: jarxiv

要約マルチモーダル表現の学習には、複数の異種データソースからの情報を統合する … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Cross-Attention is Not Enough: Incongruity-Aware Hierarchical Multimodal Sentiment Analysis and Emotion Recognition

投稿日: 2023年6月28日作成者: jarxiv

要約感情的なコンピューティングタスクに複数のモダリティを融合することは、パフ … 続きを読む →

カテゴリー: cs.CL, cs.MM, eess.AS, eess.IV | コメントを受け付けていません

Movie101: A New Movie Understanding Benchmark

投稿日: 2023年6月28日作成者: jarxiv

要約視覚障害者が映画を楽しめるよう、自動映画ナレーションシステムは、俳優のセ … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

You Can Mask More For Extremely Low-Bitrate Image Compression

投稿日: 2023年6月28日作成者: jarxiv

要約学習済み画像圧縮 (LIC) 手法は、近年大幅な進歩を遂げています。ただ … 続きを読む →

カテゴリー: cs.CV, cs.MM, eess.IV | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

DeSRA: Detect and Delete the Artifacts of GAN-based Real-World Super-Resolution Models

SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs

SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs

$\mathbf{C}^2$Former: Calibrated and Complementary Transformer for RGB-Infrared Object Detection

Learning to Pan-sharpening with Memories of Spatial Details

High-Modality Multimodal Transformer: Quantifying Modality & Interaction Heterogeneity for High-Modality Representation Learning

MultiZoo & MultiBench: A Standardized Toolkit for Multimodal Deep Learning

Cross-Attention is Not Enough: Incongruity-Aware Hierarchical Multimodal Sentiment Analysis and Emotion Recognition

Movie101: A New Movie Understanding Benchmark

You Can Mask More For Extremely Low-Bitrate Image Compression

最近の投稿

最近のコメント

アーカイブ

カテゴリー