cs.MM」カテゴリーアーカイブ

ExDDV: A New Dataset for Explainable Deepfake Detection in Video

要約 生成されたビデオのリアリズムと品質が増え続けると、自動ディープフェイク検出 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | ExDDV: A New Dataset for Explainable Deepfake Detection in Video はコメントを受け付けていません

Video-Guided Foley Sound Generation with Multimodal Controls

要約 ビデオのサウンドエフェクトを生成するには、多くの場合、実生活のソースとサウ … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Video-Guided Foley Sound Generation with Multimodal Controls はコメントを受け付けていません

BlobCtrl: A Unified and Flexible Framework for Element-level Image Generation and Editing

要約 要素レベルの視覚操作はデジタルコンテンツの作成に不可欠ですが、現在の拡散ベ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | BlobCtrl: A Unified and Flexible Framework for Element-level Image Generation and Editing はコメントを受け付けていません

Rethinking Few-Shot Adaptation of Vision-Language Models in Two Stages

要約 An old-school recipe for training a c … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM | Rethinking Few-Shot Adaptation of Vision-Language Models in Two Stages はコメントを受け付けていません

TreeMeshGPT: Artistic Mesh Generation with Autoregressive Tree Sequencing

要約 Treemeshgptを紹介します。Treemeshgptは、入力ポイント … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.MM | TreeMeshGPT: Artistic Mesh Generation with Autoregressive Tree Sequencing はコメントを受け付けていません

AudioX: Diffusion Transformer for Anything-to-Audio Generation

要約 オーディオと音楽の生成は、多くのアプリケーションで重要なタスクとして浮上し … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | AudioX: Diffusion Transformer for Anything-to-Audio Generation はコメントを受け付けていません

Quality Over Quantity? LLM-Based Curation for a Data-Efficient Audio-Video Foundation Model

要約 マルチモーダルの基礎モデルをトレーニングするためのオーディオとビジュアルデ … 続きを読む

カテゴリー: 68T, 68T10, 68T45, cs.CL, cs.IR, cs.MM, cs.SD, eess.AS | Quality Over Quantity? LLM-Based Curation for a Data-Efficient Audio-Video Foundation Model はコメントを受け付けていません

GenHPE: Generative Counterfactuals for 3D Human Pose Estimation with Radio Frequency Signals

要約 人間のポーズ推定(HPE)は、さまざまな用途の人体関節の位置を検出します。 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, eess.SP | GenHPE: Generative Counterfactuals for 3D Human Pose Estimation with Radio Frequency Signals はコメントを受け付けていません

YuE: Scaling Open Foundation Models for Long-Form Music Generation

要約 LLAMA2アーキテクチャに基づいたオープンファンデーションモデルのファミ … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | YuE: Scaling Open Foundation Models for Long-Form Music Generation はコメントを受け付けていません

Video-to-Audio Generation with Hidden Alignment

要約 ビデオ入力に従って意味的および一時的に整列したオーディオコンテンツを生成す … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Video-to-Audio Generation with Hidden Alignment はコメントを受け付けていません