cs.MM」カテゴリーアーカイブ

Unified Hallucination Detection for Multimodal Large Language Models

要約 マルチモーダルなタスクにおいて大きな進歩を遂げたにもかかわらず、マルチモー … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG, cs.MM | Unified Hallucination Detection for Multimodal Large Language Models はコメントを受け付けていません

InteractiveVideo: User-Centric Controllable Video Generation with Synergistic Multimodal Instructions

要約 動画生成のためのユーザ中心のフレームワークである$textit{Inter … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | InteractiveVideo: User-Centric Controllable Video Generation with Synergistic Multimodal Instructions はコメントを受け付けていません

Generalized Video Anomaly Event Detection: Systematic Taxonomy and Comparison of Deep Models

要約 ビデオ異常検出 (VAD) は、インテリジェント監視システムにおいて極めて … 続きを読む

カテゴリー: cs.CV, cs.MM | Generalized Video Anomaly Event Detection: Systematic Taxonomy and Comparison of Deep Models はコメントを受け付けていません

Conversation Understanding using Relational Temporal Graph Neural Networks with Auxiliary Cross-Modality Interaction

要約 感情認識は人間の会話を理解するために重要なタスクです。 言語、音声、表情な … 続きを読む

カテゴリー: cs.CL, cs.MM | Conversation Understanding using Relational Temporal Graph Neural Networks with Auxiliary Cross-Modality Interaction はコメントを受け付けていません

A Proactive and Dual Prevention Mechanism against Illegal Song Covers empowered by Singing Voice Conversion

要約 歌声変換 (SVC) は、ある歌手の歌声を、元の歌詞とメロディーを備えた別 … 続きを読む

カテゴリー: cs.AI, cs.CR, cs.LG, cs.MM, cs.SD, eess.AS | A Proactive and Dual Prevention Mechanism against Illegal Song Covers empowered by Singing Voice Conversion はコメントを受け付けていません

An Open Software Suite for Event-Based Video

要約 従来のビデオ表現は個別の画像フレームを中心に編成されていますが、イベントベ … 続きを読む

カテゴリー: cs.CV, cs.MM | An Open Software Suite for Event-Based Video はコメントを受け付けていません

Find the Cliffhanger: Multi-Modal Trailerness in Soap Operas

要約 トレーラーを作成するには、長いビデオから短い魅力的な瞬間を慎重に選択してつ … 続きを読む

カテゴリー: cs.CV, cs.MM | Find the Cliffhanger: Multi-Modal Trailerness in Soap Operas はコメントを受け付けていません

Cross-Modal Coordination Across a Diverse Set of Input Modalities

要約 クロスモーダル検索は、別のクエリを使用して特定のモダリティのサンプルを取得 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM | Cross-Modal Coordination Across a Diverse Set of Input Modalities はコメントを受け付けていません

Synchformer: Efficient Synchronization from Sparse Cues

要約 私たちの目的は、同期キューがまばらな可能性がある YouTube などの「 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | Synchformer: Efficient Synchronization from Sparse Cues はコメントを受け付けていません

Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial Margin Contrastive Learning

要約 近年、Web ビデオの爆発的な増加により、ビデオのフィルタリング、推奨、検 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial Margin Contrastive Learning はコメントを受け付けていません