-
最近の投稿
- TOFFE — Temporally-binned Object Flow from Events for High-speed and Energy-Efficient Object Detection and Tracking
- ELEGNT: Expressive and Functional Movement Design for Non-anthropomorphic Robot
- Tightly Coupled SLAM with Imprecise Architectural Plans
- LatentBKI: Open-Dictionary Continuous Mapping in Visual-Language Latent Spaces with Quantifiable Uncertainty
- Interaction Dataset of Autonomous Vehicles with Traffic Lights and Signs
-
最近のコメント
表示できるコメントはありません。 cs.AI (32585) cs.CL (24637) cs.CR (2521) cs.CV (38784) cs.LG (37457) cs.RO (18976) cs.SY (2901) eess.IV (4651) eess.SY (2895) stat.ML (4943)
「cs.MM」カテゴリーアーカイブ
Reviewing Intelligent Cinematography: AI research for camera-based video production
要約 この論文は、エンターテインメント目的での実際のカメラ コンテンツ取得のコン … 続きを読む
Towards Expressive Video Dubbing with Multiscale Multimodal Context Interaction
要約 自動ビデオ ダビング (AVD) は、スクリプトから唇の動きと顔の感情に合 … 続きを読む
ChemDFM-X: Towards Large Multimodal Model for Chemistry
要約 AI ツールの急速な発展により、化学を含む自然科学の研究にこれまでにない支 … 続きを読む
Stable-V2A: Synthesis of Synchronized Sound Effects with Temporal and Semantic Controls
要約 サウンド デザイナーやフォーリー アーティストは通常、ビデオ内の関心の … 続きを読む
Inclusion 2024 Global Multimedia Deepfake Detection: Towards Multi-dimensional Facial Forgery Detection
要約 このペーパーでは、Inclusion 2024 と同時に開催されたグローバ … 続きを読む
Towards Identity-Aware Cross-Modal Retrieval: a Dataset and a Baseline
要約 深層学習の最近の進歩により、特に画像とテキストを共有埋め込みスペースにマッ … 続きを読む
Visual Style Prompt Learning Using Diffusion Models for Blind Face Restoration
要約 ブラインドフェイス復元は、さまざまな未確認の劣化源から高品質の顔画像を復元 … 続きを読む
DLF: Disentangled-Language-Focused Multimodal Sentiment Analysis
要約 マルチモーダル感情分析 (MSA) は、言語、視覚、音声などの異種モダリテ … 続きを読む
Official-NV: An LLM-Generated News Video Dataset for Multimodal Fake News Detection
要約 ニュースメディア、特にビデオニュースメディアは日常生活のあらゆる側面に浸透 … 続きを読む
Enhancing Vision-Language Tracking by Effectively Converting Textual Cues into Visual Cues
要約 Vision-Language Tracking (VLT) は、視覚的な … 続きを読む