-
最近の投稿
- Multimodal Active Measurement for Human Mesh Recovery in Close Proximity
- An Algorithm for Distributed Computation of Reachable Sets for Multi-Agent Systems
- Meta-Learning Augmented MPC for Disturbance-Aware Motion Planning and Control of Quadrotors
- Solving Multi-Goal Robotic Tasks with Decision Transformer
- Context-Aware Command Understanding for Tabletop Scenarios
-
最近のコメント
表示できるコメントはありません。 cs.AI (27848) cs.CL (21045) cs.CR (2180) cs.CV (34554) cs.LG (32592) cs.RO (15968) cs.SY (2478) eess.IV (4238) eess.SY (2472) stat.ML (4364)
「cs.MM」カテゴリーアーカイブ
VERITE: A Robust Benchmark for Multimodal Misinformation Detection Accounting for Unimodal Bias
要約 マルチメディア コンテンツがソーシャル メディア プラットフォーム上で遍在 … 続きを読む
Positive-Augmented Contrastive Learning for Image and Video Captioning Evaluation
要約 CLIP モデルは、視覚と言語のアーキテクチャから生成されたキャプションの … 続きを読む
Meta-Transformer: A Unified Framework for Multimodal Learning
要約 マルチモーダル学習は、複数のモダリティからの情報を処理して関連付けることが … 続きを読む
MAP: Multimodal Uncertainty-Aware Vision-Language Pre-training Model
要約 マルチモーダルな意味理解では、多くの場合、不確実性に対処する必要があります … 続きを読む
GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition
要約 対照学習に基づくクロスモダリティ事前トレーニング手法は、最近、さまざまな分 … 続きを読む
Embedded Heterogeneous Attention Transformer for Cross-lingual Image Captioning
要約 クロスリンガルの画像キャプションは、マルチメディア分析においてクロスリンガ … 続きを読む
AGAR: Attention Graph-RNN for Adaptative Motion Prediction of Point Clouds of Deformable Objects
要約 この論文は、人体の動きなど、変形可能な 3D オブジェクトの困難なケースに … 続きを読む
TbExplain: A Text-based Explanation Method for Scene Classification Models with the Statistical Prediction Correction
要約 Explainable Artificial Intelligence ( … 続きを読む
Self-Supervised Learning for Videos: A Survey
要約 さまざまな分野での深層学習の目覚ましい成功は、大規模な注釈付きデータセット … 続きを読む
Robustness Analysis of Video-Language Models Against Visual and Language Perturbations
要約 大規模なデータセットでの視覚と言語の共同モデリングは、最近、単一モーダル学 … 続きを読む