-
最近の投稿
- Enhancing Efficiency in Multidevice Federated Learning through Data Selection
- RadarTrack: Enhancing Ego-Vehicle Speed Estimation with Single-chip mmWave Radar
- HOPE: A Reinforcement Learning-based Hybrid Policy Path Planner for Diverse Parking Scenarios
- From Imitation to Exploration: End-to-end Autonomous Driving based on World Model
- LLM-Enabled In-Context Learning for Data Collection Scheduling in UAV-assisted Sensor Networks
-
最近のコメント
表示できるコメントはありません。 cs.AI (36903) cs.CL (27936) cs.CV (42678) cs.HC (2822) cs.LG (41843) cs.RO (21845) cs.SY (3324) eess.IV (4979) eess.SY (3316) stat.ML (5475)
「cs.MM」カテゴリーアーカイブ
Towards Expressive Video Dubbing with Multiscale Multimodal Context Interaction
要約 自動ビデオ ダビング (AVD) は、スクリプトから唇の動きと顔の感情に合 … 続きを読む
ChemDFM-X: Towards Large Multimodal Model for Chemistry
要約 AI ツールの急速な発展により、化学を含む自然科学の研究にこれまでにない支 … 続きを読む
Stable-V2A: Synthesis of Synchronized Sound Effects with Temporal and Semantic Controls
要約 サウンド デザイナーやフォーリー アーティストは通常、ビデオ内の関心の … 続きを読む
Inclusion 2024 Global Multimedia Deepfake Detection: Towards Multi-dimensional Facial Forgery Detection
要約 このペーパーでは、Inclusion 2024 と同時に開催されたグローバ … 続きを読む
Towards Identity-Aware Cross-Modal Retrieval: a Dataset and a Baseline
要約 深層学習の最近の進歩により、特に画像とテキストを共有埋め込みスペースにマッ … 続きを読む
Visual Style Prompt Learning Using Diffusion Models for Blind Face Restoration
要約 ブラインドフェイス復元は、さまざまな未確認の劣化源から高品質の顔画像を復元 … 続きを読む
DLF: Disentangled-Language-Focused Multimodal Sentiment Analysis
要約 マルチモーダル感情分析 (MSA) は、言語、視覚、音声などの異種モダリテ … 続きを読む
Official-NV: An LLM-Generated News Video Dataset for Multimodal Fake News Detection
要約 ニュースメディア、特にビデオニュースメディアは日常生活のあらゆる側面に浸透 … 続きを読む
Enhancing Vision-Language Tracking by Effectively Converting Textual Cues into Visual Cues
要約 Vision-Language Tracking (VLT) は、視覚的な … 続きを読む
Language-Guided Diffusion Model for Visual Grounding
要約 ビジュアル グラウンディング (VG) タスクには、提供された言語フレーズ … 続きを読む