「cs.MM」カテゴリーアーカイブ

Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval

投稿日: 2023年8月9日作成者: jarxiv

要約既存のクロスモーダル検索方法のほとんどは、画像とテキストに対して異なるアー … 続きを読む →

カテゴリー: cs.CV, cs.IR, cs.MM | コメントを受け付けていません

Learning to Pan-sharpening with Memories of Spatial Details

投稿日: 2023年8月9日作成者: jarxiv

要約パンシャープニングは、リモートセンシングシステムで最も一般的に使用され … 続きを読む →

カテゴリー: cs.CV, cs.MM, eess.IV | コメントを受け付けていません

SSTFormer: Bridging Spiking Neural Network and Memory Support Transformer for Frame-Event based Recognition

投稿日: 2023年8月9日作成者: jarxiv

要約イベントカメラベースのパターン認識は、近年新たに浮上した研究テーマです。 … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.NE | コメントを受け付けていません

Your Negative May not Be True Negative: Boosting Image-Text Matching with False Negative Elimination

投稿日: 2023年8月9日作成者: jarxiv

要約既存の画像とテキストのマッチング手法のほとんどは、最適化目標としてトリプレ … 続きを読む →

カテゴリー: cs.CV, cs.IR, cs.MM | コメントを受け付けていません

DiffSynth: Latent In-Iteration Deflickering for Realistic Video Synthesis

投稿日: 2023年8月9日作成者: jarxiv

要約近年、拡散モデルが画像合成における最も強力なアプローチとして浮上しています … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

DiffSynth: Latent In-Iteration Deflickering for Realistic Video Synthesis

投稿日: 2023年8月8日作成者: jarxiv

要約近年、拡散モデルが画像合成における最も強力なアプローチとして浮上しています … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Video-based Person Re-identification with Long Short-Term Representation Learning

投稿日: 2023年8月8日作成者: jarxiv

要約ビデオベースの人物再識別 (V-ReID) は、重複していないカメラで撮影 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Efficient Labelling of Affective Video Datasets via Few-Shot & Multi-Task Contrastive Learning

投稿日: 2023年8月7日作成者: jarxiv

要約ディープラーニング技術は優れた感情予測を達成していますが、それでも大量のラ … 続きを読む →

カテゴリー: cs.CV, cs.HC, cs.MM | コメントを受け付けていません

Disentangling Multi-view Representations Beyond Inductive Bias

投稿日: 2023年8月7日作成者: jarxiv

要約多視点（または-モダリティ）表現学習は、異なるビュー表現間の関係を理解する … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

SVCNet: Scribble-based Video Colorization Network with Temporal Aggregation

投稿日: 2023年8月7日作成者: jarxiv

要約本論文では、SVCNetと呼ばれる、時間集約を用いた走り書きに基づく動画色 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval

Learning to Pan-sharpening with Memories of Spatial Details

SSTFormer: Bridging Spiking Neural Network and Memory Support Transformer for Frame-Event based Recognition

Your Negative May not Be True Negative: Boosting Image-Text Matching with False Negative Elimination

DiffSynth: Latent In-Iteration Deflickering for Realistic Video Synthesis

DiffSynth: Latent In-Iteration Deflickering for Realistic Video Synthesis

Video-based Person Re-identification with Long Short-Term Representation Learning

Efficient Labelling of Affective Video Datasets via Few-Shot & Multi-Task Contrastive Learning

Disentangling Multi-view Representations Beyond Inductive Bias

SVCNet: Scribble-based Video Colorization Network with Temporal Aggregation

最近の投稿

最近のコメント

アーカイブ

カテゴリー