cs.MM」カテゴリーアーカイブ

VIA: Unified Spatiotemporal Video Adaptation Framework for Global and Local Video Editing

要約 ビデオ編集は、エンターテイメント、教育、専門的なコミュニケーションのアプリ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | コメントする

ADS-Edit: A Multimodal Knowledge Editing Dataset for Autonomous Driving Systems

要約 大規模なマルチモーダルモデル(LMM)の最近の進歩は、自律運転システム(A … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントする

Zero-Shot Audio-Visual Editing via Cross-Modal Delta Denoising

要約 このペーパーでは、ゼロショットオーディオビデオ編集を紹介します。これは、追 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | コメントする

AudCast: Audio-Driven Human Video Generation by Cascaded Diffusion Transformers

要約 オーディオ駆動型のビデオ生成の最近の進歩にもかかわらず、既存の方法は主に顔 … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.MM | コメントする

GiVE: Guiding Visual Encoder to Perceive Overlooked Information

要約 マルチモーダルの大手言語モデルは、テキストからビデオへの生成や視覚的な質問 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | コメントする

Align Your Rhythm: Generating Highly Aligned Dance Poses with Gating-Enhanced Rhythm-Aware Feature Representation

要約 音楽によって駆動される自然で多様でリズミカルな人間のダンスの動きを自動的に … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | コメントする

LongVALE: Vision-Audio-Language-Event Benchmark Towards Time-Aware Omni-Modal Perception of Long Videos

要約 ビデオ理解における印象的な進歩にもかかわらず、ほとんどの努力は粗いまたは視 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM | コメントする

Do image and video quality metrics model low-level human vision?

要約 SSIM、LPIPS、VMAFなどの画像およびビデオの品質メトリックは、評 … 続きを読む

カテゴリー: cs.CV, cs.MM, eess.IV | コメントする

VerbDiff: Text-Only Diffusion Models with Enhanced Interaction Awareness

要約 最近の大規模なテキストからイメージまでの拡散モデルは、フォトリアリスティッ … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.MM | コメントする

MagicMotion: Controllable Video Generation with Dense-to-Sparse Trajectory Guidance

要約 最近のビデオ生成の進歩により、視覚の質と時間的一貫性の著しい改善がもたらさ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | コメントする