-
最近の投稿
- Multimodal Active Measurement for Human Mesh Recovery in Close Proximity
- An Algorithm for Distributed Computation of Reachable Sets for Multi-Agent Systems
- Meta-Learning Augmented MPC for Disturbance-Aware Motion Planning and Control of Quadrotors
- Solving Multi-Goal Robotic Tasks with Decision Transformer
- Context-Aware Command Understanding for Tabletop Scenarios
-
最近のコメント
表示できるコメントはありません。 cs.AI (27848) cs.CL (21045) cs.CR (2180) cs.CV (34554) cs.LG (32592) cs.RO (15968) cs.SY (2478) eess.IV (4238) eess.SY (2472) stat.ML (4364)
「cs.MM」カテゴリーアーカイブ
Induction Network: Audio-Visual Modality Gap-Bridging for Self-Supervised Sound Source Localization
要約 自己教師による音源定位は、通常、モダリティの不一致によって困難になります。 … 続きを読む
Separate Anything You Describe
要約 Language-Queryed Audio Source Separat … 続きを読む
GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition
要約 対照学習ベースのクロスモダリティ事前トレーニング アプローチは、最近、さま … 続きを読む
Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval
要約 既存のクロスモーダル検索方法のほとんどは、画像とテキストに対して異なるアー … 続きを読む
Learning to Pan-sharpening with Memories of Spatial Details
要約 パンシャープニングは、リモート センシング システムで最も一般的に使用され … 続きを読む
SSTFormer: Bridging Spiking Neural Network and Memory Support Transformer for Frame-Event based Recognition
要約 イベントカメラベースのパターン認識は、近年新たに浮上した研究テーマです。 … 続きを読む
Your Negative May not Be True Negative: Boosting Image-Text Matching with False Negative Elimination
要約 既存の画像とテキストのマッチング手法のほとんどは、最適化目標としてトリプレ … 続きを読む
DiffSynth: Latent In-Iteration Deflickering for Realistic Video Synthesis
要約 近年、拡散モデルが画像合成における最も強力なアプローチとして浮上しています … 続きを読む
DiffSynth: Latent In-Iteration Deflickering for Realistic Video Synthesis
要約 近年、拡散モデルが画像合成における最も強力なアプローチとして浮上しています … 続きを読む
Video-based Person Re-identification with Long Short-Term Representation Learning
要約 ビデオベースの人物再識別 (V-ReID) は、重複していないカメラで撮影 … 続きを読む