cs.MM」カテゴリーアーカイブ

LongVALE: Vision-Audio-Language-Event Benchmark Towards Time-Aware Omni-Modal Perception of Long Videos

要約 ビデオ理解における印象的な進歩にもかかわらず、ほとんどの努力は粗いまたは視 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM | コメントする

Do image and video quality metrics model low-level human vision?

要約 SSIM、LPIPS、VMAFなどの画像およびビデオの品質メトリックは、評 … 続きを読む

カテゴリー: cs.CV, cs.MM, eess.IV | コメントする

VerbDiff: Text-Only Diffusion Models with Enhanced Interaction Awareness

要約 最近の大規模なテキストからイメージまでの拡散モデルは、フォトリアリスティッ … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.MM | コメントする

MagicMotion: Controllable Video Generation with Dense-to-Sparse Trajectory Guidance

要約 最近のビデオ生成の進歩により、視覚の質と時間的一貫性の著しい改善がもたらさ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | コメントする

Machine Unlearning in Hyperbolic vs. Euclidean Multimodal Contrastive Learning: Adapting Alignment Calibration to MERU

要約 大規模な事前訓練モデルでの選択的な概念除去にとって、マシンの未学習方法はま … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントする

ExDDV: A New Dataset for Explainable Deepfake Detection in Video

要約 生成されたビデオのリアリズムと品質が増え続けると、自動ディープフェイク検出 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントする

Video-Guided Foley Sound Generation with Multimodal Controls

要約 ビデオのサウンドエフェクトを生成するには、多くの場合、実生活のソースとサウ … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントする

BlobCtrl: A Unified and Flexible Framework for Element-level Image Generation and Editing

要約 要素レベルの視覚操作はデジタルコンテンツの作成に不可欠ですが、現在の拡散ベ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | コメントする

Rethinking Few-Shot Adaptation of Vision-Language Models in Two Stages

要約 An old-school recipe for training a c … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM | Rethinking Few-Shot Adaptation of Vision-Language Models in Two Stages はコメントを受け付けていません

TreeMeshGPT: Artistic Mesh Generation with Autoregressive Tree Sequencing

要約 Treemeshgptを紹介します。Treemeshgptは、入力ポイント … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.MM | TreeMeshGPT: Artistic Mesh Generation with Autoregressive Tree Sequencing はコメントを受け付けていません