-
最近の投稿
- Lightning UQ Box: A Comprehensive Framework for Uncertainty Quantification in Deep Learning
- Fine-Grained Expressive Power of Weisfeiler-Leman: A Homomorphism Counting Perspective
- Hybrid Feedback for Three-dimensional Convex Obstacle Avoidance (Extended version)
- Self-Deployable, Adaptive Soft Robots Based on Contracting-Cord Particle Jamming
- DecTrain: Deciding When to Train a DNN Online
-
最近のコメント
表示できるコメントはありません。 cs.AI (27713) cs.CL (20937) cs.CR (2171) cs.CV (34430) cs.LG (32450) cs.RO (15866) cs.SY (2464) eess.IV (4226) eess.SY (2458) stat.ML (4346)
「cs.MM」カテゴリーアーカイブ
Unified Hallucination Detection for Multimodal Large Language Models
要約 マルチモーダルなタスクにおいて大きな進歩を遂げたにもかかわらず、マルチモー … 続きを読む
InteractiveVideo: User-Centric Controllable Video Generation with Synergistic Multimodal Instructions
要約 動画生成のためのユーザ中心のフレームワークである$textit{Inter … 続きを読む
Generalized Video Anomaly Event Detection: Systematic Taxonomy and Comparison of Deep Models
要約 ビデオ異常検出 (VAD) は、インテリジェント監視システムにおいて極めて … 続きを読む
Conversation Understanding using Relational Temporal Graph Neural Networks with Auxiliary Cross-Modality Interaction
要約 感情認識は人間の会話を理解するために重要なタスクです。 言語、音声、表情な … 続きを読む
A Proactive and Dual Prevention Mechanism against Illegal Song Covers empowered by Singing Voice Conversion
要約 歌声変換 (SVC) は、ある歌手の歌声を、元の歌詞とメロディーを備えた別 … 続きを読む
An Open Software Suite for Event-Based Video
要約 従来のビデオ表現は個別の画像フレームを中心に編成されていますが、イベントベ … 続きを読む
Find the Cliffhanger: Multi-Modal Trailerness in Soap Operas
要約 トレーラーを作成するには、長いビデオから短い魅力的な瞬間を慎重に選択してつ … 続きを読む
Cross-Modal Coordination Across a Diverse Set of Input Modalities
要約 クロスモーダル検索は、別のクエリを使用して特定のモダリティのサンプルを取得 … 続きを読む
Synchformer: Efficient Synchronization from Sparse Cues
要約 私たちの目的は、同期キューがまばらな可能性がある YouTube などの「 … 続きを読む
Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial Margin Contrastive Learning
要約 近年、Web ビデオの爆発的な増加により、ビデオのフィルタリング、推奨、検 … 続きを読む