cs.MM」カテゴリーアーカイブ

Reviewing Intelligent Cinematography: AI research for camera-based video production

要約 この論文は、エンターテインメント目的での実際のカメラ コンテンツ取得のコン … 続きを読む

カテゴリー: cs.CV, cs.MM | Reviewing Intelligent Cinematography: AI research for camera-based video production はコメントを受け付けていません

Towards Expressive Video Dubbing with Multiscale Multimodal Context Interaction

要約 自動ビデオ ダビング (AVD) は、スクリプトから唇の動きと顔の感情に合 … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | Towards Expressive Video Dubbing with Multiscale Multimodal Context Interaction はコメントを受け付けていません

ChemDFM-X: Towards Large Multimodal Model for Chemistry

要約 AI ツールの急速な発展により、化学を含む自然科学の研究にこれまでにない支 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.MM | ChemDFM-X: Towards Large Multimodal Model for Chemistry はコメントを受け付けていません

Stable-V2A: Synthesis of Synchronized Sound Effects with Temporal and Semantic Controls

要約 サウンド デザイナーやフォーリー アーティストは通常​​、ビデオ内の関心の … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | Stable-V2A: Synthesis of Synchronized Sound Effects with Temporal and Semantic Controls はコメントを受け付けていません

Inclusion 2024 Global Multimedia Deepfake Detection: Towards Multi-dimensional Facial Forgery Detection

要約 このペーパーでは、Inclusion 2024 と同時に開催されたグローバ … 続きを読む

カテゴリー: cs.CV, cs.MM | Inclusion 2024 Global Multimedia Deepfake Detection: Towards Multi-dimensional Facial Forgery Detection はコメントを受け付けていません

Towards Identity-Aware Cross-Modal Retrieval: a Dataset and a Baseline

要約 深層学習の最近の進歩により、特に画像とテキストを共有埋め込みスペースにマッ … 続きを読む

カテゴリー: cs.CV, cs.IR, cs.MM | Towards Identity-Aware Cross-Modal Retrieval: a Dataset and a Baseline はコメントを受け付けていません

Visual Style Prompt Learning Using Diffusion Models for Blind Face Restoration

要約 ブラインドフェイス復元は、さまざまな未確認の劣化源から高品質の顔画像を復元 … 続きを読む

カテゴリー: 68U10, cs.CV, cs.MM, I.4.3 | Visual Style Prompt Learning Using Diffusion Models for Blind Face Restoration はコメントを受け付けていません

DLF: Disentangled-Language-Focused Multimodal Sentiment Analysis

要約 マルチモーダル感情分析 (MSA) は、言語、視覚、音声などの異種モダリテ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM | DLF: Disentangled-Language-Focused Multimodal Sentiment Analysis はコメントを受け付けていません

Official-NV: An LLM-Generated News Video Dataset for Multimodal Fake News Detection

要約 ニュースメディア、特にビデオニュースメディアは日常生活のあらゆる側面に浸透 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Official-NV: An LLM-Generated News Video Dataset for Multimodal Fake News Detection はコメントを受け付けていません

Enhancing Vision-Language Tracking by Effectively Converting Textual Cues into Visual Cues

要約 Vision-Language Tracking (VLT) は、視覚的な … 続きを読む

カテゴリー: cs.CV, cs.MM | Enhancing Vision-Language Tracking by Effectively Converting Textual Cues into Visual Cues はコメントを受け付けていません