-
最近の投稿
- How to Coordinate UAVs and UGVs for Efficient Mission Planning? Optimizing Energy-Constrained Cooperative Routing with a DRL Framework
- NavEX: A Multi-Agent Coverage in Non-Convex and Uneven Environments via Exemplar-Clustering
- Simultaneous System Identification and Model Predictive Control with No Dynamic Regret
- When to Localize? A Risk-Constrained Reinforcement Learning Approach
- SPARK-Remote: A Cost-Effective System for Remote Bimanual Robot Teleoperation
-
最近のコメント
表示できるコメントはありません。 cs.AI (37393) cs.CL (28290) cs.CV (43079) cs.HC (2862) cs.LG (42313) cs.RO (22180) cs.SY (3395) eess.IV (5005) eess.SY (3387) stat.ML (5527)
「cs.MM」カテゴリーアーカイブ
KeyVideoLLM: Towards Large-scale Video Keyframe Selection
要約 最近、Web ビデオの台頭により、大規模なビデオ データセットの管理と理解 … 続きを読む
Can LLMs ‘Reason’ in Music? An Evaluation of LLMs’ Capability of Music Understanding and Generation
要約 言語に似た記号音楽は、個別の記号でエンコードできます。 最近の研究では、G … 続きを読む
Open-Vocabulary Audio-Visual Semantic Segmentation
要約 オーディオビジュアル セマンティック セグメンテーション (AVSS) は … 続きを読む
Learning Video Context as Interleaved Multimodal Sequences
要約 映画などのナラティブビデオは、その豊富なコンテキスト (キャラクター、会話 … 続きを読む
Versatile audio-visual learning for emotion recognition
要約 現在のオーディオビジュアル感情認識モデルのほとんどは、実際のアプリケーショ … 続きを読む
Rethinking Radiology Report Generation via Causal Inspired Counterfactual Augmentation
要約 Radiology Report Generation (RRG) は、生 … 続きを読む
MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions
要約 大規模なマルチモダリティ データセットは、大規模なビデオ言語モデルの成功を … 続きを読む
AxiomVision: Accuracy-Guaranteed Adaptive Visual Model Selection for Perspective-Aware Video Analytics
要約 マルチメディアおよびコンピュータ ビジョン テクノロジの急速な進化には、多 … 続きを読む
Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study
要約 ディープ ニューラル ネットワークは最近、サウンド生成において画期的な進歩 … 続きを読む
AxiomVision: Accuracy-Guaranteed Adaptive Visual Model Selection for Perspective-Aware Video Analytics
要約 マルチメディアおよびコンピュータ ビジョン テクノロジの急速な進化には、多 … 続きを読む