-
最近の投稿
- Grasp EveryThing (GET): 1-DoF, 3-Fingered Gripper with Tactile Sensing for Robust Grasping
- Neural Inertial Odometry from Lie Events
- Physical synchronization of soft self-oscillating limbs for fast and autonomous locomotion
- CRADMap: Applied Distributed Volumetric Mapping with 5G-Connected Multi-Robots and 4D Radar Perception
- Learning Rock Pushability on Rough Planetary Terrain
-
最近のコメント
表示できるコメントはありません。 cs.AI (38176) cs.CL (28850) cs.CV (43741) cs.HC (2915) cs.LG (43106) cs.RO (22722) cs.SY (3490) eess.IV (5071) eess.SY (3482) stat.ML (5612)
「cs.MM」カテゴリーアーカイブ
Towards Expressive Video Dubbing with Multiscale Multimodal Context Interaction
要約 自動ビデオ ダビング (AVD) は、スクリプトから唇の動きと顔の感情に合 … 続きを読む
ChemDFM-X: Towards Large Multimodal Model for Chemistry
要約 AI ツールの急速な発展により、化学を含む自然科学の研究にこれまでにない支 … 続きを読む
Stable-V2A: Synthesis of Synchronized Sound Effects with Temporal and Semantic Controls
要約 サウンド デザイナーやフォーリー アーティストは通常、ビデオ内の関心の … 続きを読む
Inclusion 2024 Global Multimedia Deepfake Detection: Towards Multi-dimensional Facial Forgery Detection
要約 このペーパーでは、Inclusion 2024 と同時に開催されたグローバ … 続きを読む
Towards Identity-Aware Cross-Modal Retrieval: a Dataset and a Baseline
要約 深層学習の最近の進歩により、特に画像とテキストを共有埋め込みスペースにマッ … 続きを読む
Visual Style Prompt Learning Using Diffusion Models for Blind Face Restoration
要約 ブラインドフェイス復元は、さまざまな未確認の劣化源から高品質の顔画像を復元 … 続きを読む
DLF: Disentangled-Language-Focused Multimodal Sentiment Analysis
要約 マルチモーダル感情分析 (MSA) は、言語、視覚、音声などの異種モダリテ … 続きを読む
Official-NV: An LLM-Generated News Video Dataset for Multimodal Fake News Detection
要約 ニュースメディア、特にビデオニュースメディアは日常生活のあらゆる側面に浸透 … 続きを読む
Enhancing Vision-Language Tracking by Effectively Converting Textual Cues into Visual Cues
要約 Vision-Language Tracking (VLT) は、視覚的な … 続きを読む
Language-Guided Diffusion Model for Visual Grounding
要約 ビジュアル グラウンディング (VG) タスクには、提供された言語フレーズ … 続きを読む