-
最近の投稿
- RT-cache: Efficient Robot Trajectory Retrieval System
- Reach-Avoid-Stabilize Using Admissible Control Sets
- Solving Reach- and Stabilize-Avoid Problems Using Discounted Reachability
- A Novel 6-axis Force/Torque Sensor Using Inductance Sensors
- Deployable and Generalizable Motion Prediction: Taxonomy, Open Challenges and Future Directions
-
最近のコメント
表示できるコメントはありません。 cs.AI (38110) cs.CL (28797) cs.CV (43686) cs.HC (2911) cs.LG (43032) cs.RO (22672) cs.SY (3480) eess.IV (5065) eess.SY (3472) stat.ML (5604)
「cs.MM」カテゴリーアーカイブ
Accelerated Event-Based Feature Detection and Compression for Surveillance Video Systems
要約 監視ビデオの強力な時間的一貫性により、従来の方法で魅力的な圧縮パフォーマン … 続きを読む
Semantic2Graph: Graph-based Multi-modal Feature Fusion for Action Segmentation in Videos
要約 ビデオ アクション セグメンテーションは、多くの分野で広く適用されています … 続きを読む
Diffusion Models, Image Super-Resolution And Everything: A Survey
要約 拡散モデル (DM) は、画像の超解像度 (SR) 分野を破壊し、画質と人 … 続きを読む
Multimodal Speech Enhancement Using Burst Propagation
要約 本論文では、前頭前皮質や他の脳領域の錐体細胞に関する最新の神経学的発見を考 … 続きを読む
Unified Hallucination Detection for Multimodal Large Language Models
要約 マルチモーダルなタスクにおいて大きな進歩を遂げたにもかかわらず、マルチモー … 続きを読む
InteractiveVideo: User-Centric Controllable Video Generation with Synergistic Multimodal Instructions
要約 動画生成のためのユーザ中心のフレームワークである$textit{Inter … 続きを読む
Generalized Video Anomaly Event Detection: Systematic Taxonomy and Comparison of Deep Models
要約 ビデオ異常検出 (VAD) は、インテリジェント監視システムにおいて極めて … 続きを読む
Conversation Understanding using Relational Temporal Graph Neural Networks with Auxiliary Cross-Modality Interaction
要約 感情認識は人間の会話を理解するために重要なタスクです。 言語、音声、表情な … 続きを読む
A Proactive and Dual Prevention Mechanism against Illegal Song Covers empowered by Singing Voice Conversion
要約 歌声変換 (SVC) は、ある歌手の歌声を、元の歌詞とメロディーを備えた別 … 続きを読む
An Open Software Suite for Event-Based Video
要約 従来のビデオ表現は個別の画像フレームを中心に編成されていますが、イベントベ … 続きを読む