cs.MM」カテゴリーアーカイブ

Induction Network: Audio-Visual Modality Gap-Bridging for Self-Supervised Sound Source Localization

要約 自己教師による音源定位は、通常、モダリティの不一致によって困難になります。 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | Induction Network: Audio-Visual Modality Gap-Bridging for Self-Supervised Sound Source Localization はコメントを受け付けていません

Separate Anything You Describe

要約 Language-Queryed Audio Source Separat … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | Separate Anything You Describe はコメントを受け付けていません

GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition

要約 対照学習ベースのクロスモダリティ事前トレーニング アプローチは、最近、さま … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition はコメントを受け付けていません

Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval

要約 既存のクロスモーダル検索方法のほとんどは、画像とテキストに対して異なるアー … 続きを読む

カテゴリー: cs.CV, cs.IR, cs.MM | Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval はコメントを受け付けていません

Learning to Pan-sharpening with Memories of Spatial Details

要約 パンシャープニングは、リモート センシング システムで最も一般的に使用され … 続きを読む

カテゴリー: cs.CV, cs.MM, eess.IV | Learning to Pan-sharpening with Memories of Spatial Details はコメントを受け付けていません

SSTFormer: Bridging Spiking Neural Network and Memory Support Transformer for Frame-Event based Recognition

要約 イベントカメラベースのパターン認識は、近年新たに浮上した研究テーマです。 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.NE | SSTFormer: Bridging Spiking Neural Network and Memory Support Transformer for Frame-Event based Recognition はコメントを受け付けていません

Your Negative May not Be True Negative: Boosting Image-Text Matching with False Negative Elimination

要約 既存の画像とテキストのマッチング手法のほとんどは、最適化目標としてトリプレ … 続きを読む

カテゴリー: cs.CV, cs.IR, cs.MM | Your Negative May not Be True Negative: Boosting Image-Text Matching with False Negative Elimination はコメントを受け付けていません

DiffSynth: Latent In-Iteration Deflickering for Realistic Video Synthesis

要約 近年、拡散モデルが画像合成における最も強力なアプローチとして浮上しています … 続きを読む

カテゴリー: cs.CV, cs.MM | DiffSynth: Latent In-Iteration Deflickering for Realistic Video Synthesis はコメントを受け付けていません

DiffSynth: Latent In-Iteration Deflickering for Realistic Video Synthesis

要約 近年、拡散モデルが画像合成における最も強力なアプローチとして浮上しています … 続きを読む

カテゴリー: cs.CV, cs.MM | DiffSynth: Latent In-Iteration Deflickering for Realistic Video Synthesis はコメントを受け付けていません

Video-based Person Re-identification with Long Short-Term Representation Learning

要約 ビデオベースの人物再識別 (V-ReID) は、重複していないカメラで撮影 … 続きを読む

カテゴリー: cs.CV, cs.MM | Video-based Person Re-identification with Long Short-Term Representation Learning はコメントを受け付けていません