-
最近の投稿
- How to Coordinate UAVs and UGVs for Efficient Mission Planning? Optimizing Energy-Constrained Cooperative Routing with a DRL Framework
- NavEX: A Multi-Agent Coverage in Non-Convex and Uneven Environments via Exemplar-Clustering
- Simultaneous System Identification and Model Predictive Control with No Dynamic Regret
- When to Localize? A Risk-Constrained Reinforcement Learning Approach
- SPARK-Remote: A Cost-Effective System for Remote Bimanual Robot Teleoperation
-
最近のコメント
表示できるコメントはありません。 cs.AI (37393) cs.CL (28290) cs.CV (43079) cs.HC (2862) cs.LG (42313) cs.RO (22180) cs.SY (3395) eess.IV (5005) eess.SY (3387) stat.ML (5527)
「cs.MM」カテゴリーアーカイブ
Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention
要約 感情を理解することは、人間のコミュニケーションの基本的な側面です。 オーデ … 続きを読む
LookupForensics: A Large-Scale Multi-Task Dataset for Multi-Phase Image-Based Fact Verification
要約 偽造画像の急増、特にディープフェイクコンテンツの津波の中で、偽造技術の継続 … 続きを読む
Every Part Matters: Integrity Verification of Scientific Figures Based on Multimodal Large Language Models
要約 この論文は、科学的数値の解釈における重要な問題、つまりテキストと図のきめ細 … 続きを読む
Selective Vision-Language Subspace Projection for Few-shot CLIP
要約 CLIP などの視覚言語モデルは、さまざまなモダリティ データを統一された … 続きを読む
Shapley Value-based Contrastive Alignment for Multimodal Information Extraction
要約 ソーシャル メディアの台頭とマルチモーダル コミュニケーションの急激な成長 … 続きを読む
ReCorD: Reasoning and Correcting Diffusion for HOI Generation
要約 拡散モデルは、自然言語を活用してマルチメディア コンテンツの作成をガイドす … 続きを読む
Continual Panoptic Perception: Towards Multi-modal Incremental Interpretation of Remote Sensing Images
要約 継続学習 (CL) は、一方向のトレーニング方法を打破し、モデルが新しいデ … 続きを読む
A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding
要約 最近、多くの研究で、OCR から派生したテキストと空間レイアウトを大規模言 … 続きを読む
Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation
要約 テキストから画像への取得は、意味的に関連するクロスモーダル コンテンツを取 … 続きを読む
MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues
要約 マルチモーダル大規模言語モデル (MLLM) は、ビデオ内の視覚、音響、言 … 続きを読む