-
最近の投稿
- Sensitivity-Constrained Fourier Neural Operators for Forward and Inverse Problems in Parametric Differential Equations
- Hakim: Farsi Text Embedding Model
- SafeMate: A Modular RAG-Based Agent for Context-Aware Emergency Guidance
- Thermal Detection of People with Mobility Restrictions for Barrier Reduction at Traffic Lights Controlled Intersections
- MGPATH: Vision-Language Model with Multi-Granular Prompt Learning for Few-Shot WSI Classification
-
最近のコメント
表示できるコメントはありません。 cs.AI (38039) cs.CL (28749) cs.CV (43630) cs.HC (2908) cs.LG (42965) cs.RO (22623) cs.SY (3469) eess.IV (5057) eess.SY (3461) stat.ML (5597)
「cs.MM」カテゴリーアーカイブ
VIA: Unified Spatiotemporal Video Adaptation Framework for Global and Local Video Editing
要約 ビデオ編集は、エンターテイメント、教育、専門的なコミュニケーションのアプリ … 続きを読む
ADS-Edit: A Multimodal Knowledge Editing Dataset for Autonomous Driving Systems
要約 大規模なマルチモーダルモデル(LMM)の最近の進歩は、自律運転システム(A … 続きを読む
Zero-Shot Audio-Visual Editing via Cross-Modal Delta Denoising
要約 このペーパーでは、ゼロショットオーディオビデオ編集を紹介します。これは、追 … 続きを読む
AudCast: Audio-Driven Human Video Generation by Cascaded Diffusion Transformers
要約 オーディオ駆動型のビデオ生成の最近の進歩にもかかわらず、既存の方法は主に顔 … 続きを読む
GiVE: Guiding Visual Encoder to Perceive Overlooked Information
要約 マルチモーダルの大手言語モデルは、テキストからビデオへの生成や視覚的な質問 … 続きを読む
Align Your Rhythm: Generating Highly Aligned Dance Poses with Gating-Enhanced Rhythm-Aware Feature Representation
要約 音楽によって駆動される自然で多様でリズミカルな人間のダンスの動きを自動的に … 続きを読む
LongVALE: Vision-Audio-Language-Event Benchmark Towards Time-Aware Omni-Modal Perception of Long Videos
要約 ビデオ理解における印象的な進歩にもかかわらず、ほとんどの努力は粗いまたは視 … 続きを読む
Do image and video quality metrics model low-level human vision?
要約 SSIM、LPIPS、VMAFなどの画像およびビデオの品質メトリックは、評 … 続きを読む
VerbDiff: Text-Only Diffusion Models with Enhanced Interaction Awareness
要約 最近の大規模なテキストからイメージまでの拡散モデルは、フォトリアリスティッ … 続きを読む