「cs.MM」カテゴリーアーカイブ

Zero-Shot Audio-Visual Editing via Cross-Modal Delta Denoising

投稿日: 2025年3月27日作成者: jarxiv

要約このペーパーでは、ゼロショットオーディオビデオ編集を紹介します。これは、追 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

AudCast: Audio-Driven Human Video Generation by Cascaded Diffusion Transformers

投稿日: 2025年3月26日作成者: jarxiv

要約オーディオ駆動型のビデオ生成の最近の進歩にもかかわらず、既存の方法は主に顔 … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.MM | コメントを受け付けていません

GiVE: Guiding Visual Encoder to Perceive Overlooked Information

投稿日: 2025年3月24日作成者: jarxiv

要約マルチモーダルの大手言語モデルは、テキストからビデオへの生成や視覚的な質問 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

Align Your Rhythm: Generating Highly Aligned Dance Poses with Gating-Enhanced Rhythm-Aware Feature Representation

投稿日: 2025年3月24日作成者: jarxiv

要約音楽によって駆動される自然で多様でリズミカルな人間のダンスの動きを自動的に … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

LongVALE: Vision-Audio-Language-Event Benchmark Towards Time-Aware Omni-Modal Perception of Long Videos

投稿日: 2025年3月21日作成者: jarxiv

要約ビデオ理解における印象的な進歩にもかかわらず、ほとんどの努力は粗いまたは視 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Do image and video quality metrics model low-level human vision?

投稿日: 2025年3月21日作成者: jarxiv

要約 SSIM、LPIPS、VMAFなどの画像およびビデオの品質メトリックは、評 … 続きを読む →

カテゴリー: cs.CV, cs.MM, eess.IV | コメントを受け付けていません

VerbDiff: Text-Only Diffusion Models with Enhanced Interaction Awareness

投稿日: 2025年3月21日作成者: jarxiv

要約最近の大規模なテキストからイメージまでの拡散モデルは、フォトリアリスティッ … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.MM | コメントを受け付けていません

MagicMotion: Controllable Video Generation with Dense-to-Sparse Trajectory Guidance

投稿日: 2025年3月21日作成者: jarxiv

要約最近のビデオ生成の進歩により、視覚の質と時間的一貫性の著しい改善がもたらさ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Machine Unlearning in Hyperbolic vs. Euclidean Multimodal Contrastive Learning: Adapting Alignment Calibration to MERU

投稿日: 2025年3月20日作成者: jarxiv

要約大規模な事前訓練モデルでの選択的な概念除去にとって、マシンの未学習方法はま … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

ExDDV: A New Dataset for Explainable Deepfake Detection in Video

投稿日: 2025年3月19日作成者: jarxiv

要約生成されたビデオのリアリズムと品質が増え続けると、自動ディープフェイク検出 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

Zero-Shot Audio-Visual Editing via Cross-Modal Delta Denoising

AudCast: Audio-Driven Human Video Generation by Cascaded Diffusion Transformers

GiVE: Guiding Visual Encoder to Perceive Overlooked Information

Align Your Rhythm: Generating Highly Aligned Dance Poses with Gating-Enhanced Rhythm-Aware Feature Representation

LongVALE: Vision-Audio-Language-Event Benchmark Towards Time-Aware Omni-Modal Perception of Long Videos

Do image and video quality metrics model low-level human vision?

VerbDiff: Text-Only Diffusion Models with Enhanced Interaction Awareness

MagicMotion: Controllable Video Generation with Dense-to-Sparse Trajectory Guidance

Machine Unlearning in Hyperbolic vs. Euclidean Multimodal Contrastive Learning: Adapting Alignment Calibration to MERU

ExDDV: A New Dataset for Explainable Deepfake Detection in Video

最近の投稿

最近のコメント

アーカイブ

カテゴリー