cs.MM」カテゴリーアーカイブ

MultiVENT: Multilingual Videos of Events with Aligned Natural Text

要約 日常のニュース報道は、従来の放送から直接の未編集のビデオ映像などの幅広いプ … 続きを読む

カテゴリー: cs.CV, cs.IR, cs.MM | MultiVENT: Multilingual Videos of Events with Aligned Natural Text はコメントを受け付けていません

Artificial ASMR: A Cyber-Psychological Approach

要約 ASMR (Autonomous Sensory Meridian Res … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS, eess.SP | Artificial ASMR: A Cyber-Psychological Approach はコメントを受け付けていません

MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic Facial Expression Recognition

要約 動的表情認識 (DFER) は、インテリジェントで共感力のあるマシンの開発 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.HC, cs.MM | MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic Facial Expression Recognition はコメントを受け付けていません

DeSRA: Detect and Delete the Artifacts of GAN-based Real-World Super-Resolution Models

要約 敵対的生成ネットワーク (GAN) を使用した画像超解像度 (SR) は、 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | DeSRA: Detect and Delete the Artifacts of GAN-based Real-World Super-Resolution Models はコメントを受け付けていません

SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs

要約 本研究では、画像や動画などの非言語的モダリティを含む理解・生成タスクをフロ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs はコメントを受け付けていません

SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs

要約 この研究では、凍結された LLM が画像やビデオなどの非言語モダリティを含 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs はコメントを受け付けていません

$\mathbf{C}^2$Former: Calibrated and Complementary Transformer for RGB-Infrared Object Detection

要約 可視 (RGB) および赤外線 (IR) 画像での物体検出は、24 時間ア … 続きを読む

カテゴリー: cs.CV, cs.MM | $\mathbf{C}^2$Former: Calibrated and Complementary Transformer for RGB-Infrared Object Detection はコメントを受け付けていません

Learning to Pan-sharpening with Memories of Spatial Details

要約 パンシャープニングは、リモート センシング システムで最も一般的に使用され … 続きを読む

カテゴリー: cs.CV, cs.MM, eess.IV | Learning to Pan-sharpening with Memories of Spatial Details はコメントを受け付けていません

High-Modality Multimodal Transformer: Quantifying Modality & Interaction Heterogeneity for High-Modality Representation Learning

要約 現実世界の問題の多くは、人間がコミュニケーションに使用する話し言葉、ジェス … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | High-Modality Multimodal Transformer: Quantifying Modality & Interaction Heterogeneity for High-Modality Representation Learning はコメントを受け付けていません

MultiZoo & MultiBench: A Standardized Toolkit for Multimodal Deep Learning

要約 マルチモーダル表現の学習には、複数の異種データ ソースからの情報を統合する … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | MultiZoo & MultiBench: A Standardized Toolkit for Multimodal Deep Learning はコメントを受け付けていません