-
最近の投稿
- Scaling Multi Agent Reinforcement Learning for Underwater Acoustic Tracking via Autonomous Vehicles
- Reinforcement Learning-based Fault-Tolerant Control for Quadrotor with Online Transformer Adaptation
- Enhanced Importance Sampling through Latent Space Exploration in Normalizing Flows
- Enhancing Scene Coordinate Regression with Efficient Keypoint Detection and Sequential Information
- Constrained Factor Graph Optimization for Robust Networked Pedestrian Inertial Navigation
-
最近のコメント
表示できるコメントはありません。 cs.AI (38035) cs.CL (28747) cs.CV (43624) cs.HC (2908) cs.LG (42962) cs.RO (22623) cs.SY (3469) eess.IV (5057) eess.SY (3461) stat.ML (5597)
「cs.MM」カテゴリーアーカイブ
Solving Copyright Infringement on Short Video Platforms: Novel Datasets and an Audio Restoration Deep Learning Pipeline
要約 YouTube ShortsやTiktokのような短いビデオプラットフォー … 続きを読む
AlignDiT: Multimodal Aligned Diffusion Transformer for Synchronized Speech Generation
要約 この論文では、複数の入力モダリティ(テキスト、ビデオ、および参照オーディオ … 続きを読む
TrueFake: A Real World Case Dataset of Last Generation Fake Images also Shared on Social Networks
要約 AI生成された合成メディアは、実際のシナリオでますます使用されており、多く … 続きを読む
Advance Fake Video Detection via Vision Transformers
要約 AIベースのマルチメディア生成における最近の進歩により、超現実的な画像とビ … 続きを読む
Mitigating Modality Bias in Multi-modal Entity Alignment from a Causal Perspective
要約 Multi-Modal Entity Alignment(MMEA)は、重 … 続きを読む
Mitigating Modality Bias in Multi-modal Entity Alignment from a Causal Perspective
要約 Multi-Modal Entity Alignment(MMEA)は、重 … 続きを読む
Kimi-Audio Technical Report
要約 オーディオの理解、生成、会話に優れたオープンソースオーディオファンデーショ … 続きを読む
Seeing Soundscapes: Audio-Visual Generation and Separation from Soundscapes Using Audio-Visual Separator
要約 最近の視聴覚生成モデルは、オーディオから画像を生成する際に大きな進歩を遂げ … 続きを読む
Can Large Language Models Help Multimodal Language Analysis? MMLA: A Comprehensive Benchmark
要約 マルチモーダル言語分析は、複数のモダリティを活用して、人間の会話の発話の根 … 続きを読む
M-MRE: Extending the Mutual Reinforcement Effect to Multimodal Information Extraction
要約 相互補強効果(MRE)は、情報抽出とモデルの解釈可能性の交差点の新興サブフ … 続きを読む