-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
Generalized Video Anomaly Event Detection: Systematic Taxonomy and Comparison of Deep Models
要約 ビデオ異常検出 (VAD) は、インテリジェント監視システムにおいて極めて … 続きを読む
Conversation Understanding using Relational Temporal Graph Neural Networks with Auxiliary Cross-Modality Interaction
要約 感情認識は人間の会話を理解するために重要なタスクです。 言語、音声、表情な … 続きを読む
A Proactive and Dual Prevention Mechanism against Illegal Song Covers empowered by Singing Voice Conversion
要約 歌声変換 (SVC) は、ある歌手の歌声を、元の歌詞とメロディーを備えた別 … 続きを読む
An Open Software Suite for Event-Based Video
要約 従来のビデオ表現は個別の画像フレームを中心に編成されていますが、イベントベ … 続きを読む
Find the Cliffhanger: Multi-Modal Trailerness in Soap Operas
要約 トレーラーを作成するには、長いビデオから短い魅力的な瞬間を慎重に選択してつ … 続きを読む
Cross-Modal Coordination Across a Diverse Set of Input Modalities
要約 クロスモーダル検索は、別のクエリを使用して特定のモダリティのサンプルを取得 … 続きを読む
Synchformer: Efficient Synchronization from Sparse Cues
要約 私たちの目的は、同期キューがまばらな可能性がある YouTube などの「 … 続きを読む
Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial Margin Contrastive Learning
要約 近年、Web ビデオの爆発的な増加により、ビデオのフィルタリング、推奨、検 … 続きを読む
CMMU: A Benchmark for Chinese Multi-modal Multi-type Question Understanding and Reasoning
要約 マルチモーダル大規模言語モデル (MLLM) は目覚ましい進歩を遂げ、強力 … 続きを読む
CMMU: A Benchmark for Chinese Multi-modal Multi-type Question Understanding and Reasoning
要約 マルチモーダル大規模言語モデル (MLLM) は目覚ましい進歩を遂げ、強力 … 続きを読む