cs.MM」カテゴリーアーカイブ

VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos

要約 ビデオ入力から BGM を生成する方法を学習するためのフレームワークを紹介 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos はコメントを受け付けていません

FreeEnhance: Tuning-Free Image Enhancement via Content-Consistent Noising-and-Denoising Process

要約 テキストから画像への生成モデルの出現により、後処理として実行される画像強調 … 続きを読む

カテゴリー: cs.CV, cs.MM | FreeEnhance: Tuning-Free Image Enhancement via Content-Consistent Noising-and-Denoising Process はコメントを受け付けていません

Hi3D: Pursuing High-Resolution Image-to-3D Generation with Video Diffusion Models

要約 画像から 3D への生成が大幅に進歩したにもかかわらず、既存の方法は、特に … 続きを読む

カテゴリー: cs.CV, cs.MM | Hi3D: Pursuing High-Resolution Image-to-3D Generation with Video Diffusion Models はコメントを受け付けていません

DreamMesh: Jointly Manipulating and Texturing Triangle Meshes for Text-to-3D Generation

要約 強力な 2D 拡散モデルを使用した放射輝度フィールド (NeRF) の学習 … 続きを読む

カテゴリー: cs.CV, cs.MM | DreamMesh: Jointly Manipulating and Texturing Triangle Meshes for Text-to-3D Generation はコメントを受け付けていません

Distilling Generative-Discriminative Representations for Very Low-Resolution Face Recognition

要約 非常に低解像度の顔認識は、解像度の低下により情報となる顔の詳細が大幅に失わ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Distilling Generative-Discriminative Representations for Very Low-Resolution Face Recognition はコメントを受け付けていません

Benchmarking Sub-Genre Classification For Mainstage Dance Music

要約 音楽の分類は、幅広い用途に対応しており、音楽情報の検索において最も重要なタ … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, I.2.1 | Benchmarking Sub-Genre Classification For Mainstage Dance Music はコメントを受け付けていません

Question-Answering Dense Video Events

要約 マルチモーダル大規模言語モデル (MLLM) は、単一イベント ビデオの質 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Question-Answering Dense Video Events はコメントを受け付けていません

Concept Conductor: Orchestrating Multiple Personalized Concepts in Text-to-Image Synthesis

要約 テキストから画像へのモデルのカスタマイズは大幅に進歩しましたが、複数のパー … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Concept Conductor: Orchestrating Multiple Personalized Concepts in Text-to-Image Synthesis はコメントを受け付けていません

Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning

要約 最近、AI コミュニティは、大規模なマルチモーダル データセットを活用した … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning はコメントを受け付けていません

HiSC4D: Human-centered interaction and 4D Scene Capture in Large-scale Space Using Wearable IMUs and LiDAR

要約 大規模な屋内と屋外のシーン、多様な人間の動き、豊かな人間と人間の相互作用、 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.MM | HiSC4D: Human-centered interaction and 4D Scene Capture in Large-scale Space Using Wearable IMUs and LiDAR はコメントを受け付けていません