-
最近の投稿
- Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards
- OrbitGrasp: $SE(3)$-Equivariant Grasp Learning
- M3Bench: Benchmarking Whole-body Motion Generation for Mobile Manipulation in 3D Scenes
- Self-Supervised Learning For Robust Robotic Grasping In Dynamic Environment
- Routing and Scheduling Optimization for Urban Air Mobility Fleet Management using Quantum Annealing
-
最近のコメント
表示できるコメントはありません。 cs.AI (28126) cs.CL (21249) cs.CR (2197) cs.CV (34799) cs.LG (32858) cs.RO (16174) cs.SY (2496) eess.IV (4244) eess.SY (2490) stat.ML (4401)
「cs.MM」カテゴリーアーカイブ
LaT: Latent Translation with Cycle-Consistency for Video-Text Retrieval
要約 ビデオテキスト検索は、クロスモーダル表現学習問題のクラスであり、目的は、特 … 続きを読む
SHREC’22 Track: Sketch-Based 3D Shape Retrieval in the Wild
要約 スケッチベースの3D形状検索(SBSR)は重要でありながら挑戦的なタスクで … 続きを読む
Intra-Modal Constraint Loss For Image-Text Retrieval
要約 クロスモーダル検索は、コンピュータービジョンと自然言語処理の両方の分野で大 … 続きを読む
Audio-Visual Segmentation
要約 視聴覚セグメンテーション(AVS)と呼ばれる新しい問題を調査することを提案 … 続きを読む
Exploring the Effectiveness of Video Perceptual Representation in Blind Video Quality Assessment
要約 非専門家によって撮影された野生のビデオの急速な成長に伴い、ブラインドビデオ … 続きを読む
FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech Synthesis
要約 制約のない唇から音声への合成は、頭のポーズや語彙に制限がなく、話している顔 … 続きを読む
Self-Supervised Learning of Music-Dance Representation through Explicit-Implicit Rhythm Synchronization
要約 視聴覚表現は多くの下流のタスクに適用可能であることが証明されていますが、よ … 続きを読む
FAST-VQA: Efficient End-to-end Video Quality Assessment with Fragment Sampling
要約 現在のディープビデオ品質評価 (VQA) 手法は、高解像度ビデオを評価する … 続きを読む
Adversarial Robustness of Visual Dialog
要約 敵対的ロバスト性とは、機械学習モデルの安全性と信頼性を確保するために、最悪 … 続きを読む
Multi-modal Robustness Analysis Against Language and Visual Perturbations
要約 大規模データセットにおける視覚と言語の統合モデリングは、単一モード学習と比 … 続きを読む