cs.MM」カテゴリーアーカイブ

A Training and Inference Strategy Using Noisy and Enhanced Speech as Target for Speech Enhancement without Clean Speech

要約 きれいな音声の欠如は、音声強調システムの開発にとって実際的な課題であり、ト … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM, cs.SD, eess.AS | A Training and Inference Strategy Using Noisy and Enhanced Speech as Target for Speech Enhancement without Clean Speech はコメントを受け付けていません

Building an Invisible Shield for Your Portrait against Deepfakes

要約 ディープフェイクの検出の問題は、虐待防止のための顔操作を特定するという目的 … 続きを読む

カテゴリー: cs.CV, cs.MM | Building an Invisible Shield for Your Portrait against Deepfakes はコメントを受け付けていません

DiffAVA: Personalized Text-to-Audio Generation with Visual Alignment

要約 Text-to-audio (TTA) 生成は、テキストの説明を基に一般的 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM | DiffAVA: Personalized Text-to-Audio Generation with Visual Alignment はコメントを受け付けていません

Sparsity and Coefficient Permutation Based Two-Domain AMP for Image Block Compressed Sensing

要約 学習されたノイズ除去ベースの近似メッセージ パッシング (LDAMP) ア … 続きを読む

カテゴリー: cs.CV, cs.MM, eess.IV | Sparsity and Coefficient Permutation Based Two-Domain AMP for Image Block Compressed Sensing はコメントを受け付けていません

StereoVAE: A lightweight stereo matching system through embedded GPUs

要約 組み込み GPU を使用したステレオ マッチングのための軽量システムを紹介 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.RO | StereoVAE: A lightweight stereo matching system through embedded GPUs はコメントを受け付けていません

Enhancing Vision-Language Pre-Training with Jointly Learned Questioner and Dense Captioner

要約 大規模な事前トレーニング済みマルチモーダル モデルは、画像キャプション、画 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Enhancing Vision-Language Pre-Training with Jointly Learned Questioner and Dense Captioner はコメントを受け付けていません

Annotation-free Audio-Visual Segmentation

要約 オーディオビジュアルセグメンテーション (AVS) の目的は、ピクセルごと … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Annotation-free Audio-Visual Segmentation はコメントを受け付けていません

Weakly-Supervised Visual-Textual Grounding with Semantic Prior Refinement

要約 画像と文のペアのみを使用して、弱く教師された視覚とテキストの基礎付けは、そ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | Weakly-Supervised Visual-Textual Grounding with Semantic Prior Refinement はコメントを受け付けていません

Annotation-free Audio-Visual Segmentation

要約 オーディオビジュアルセグメンテーション (AVS) の目的は、ピクセルごと … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Annotation-free Audio-Visual Segmentation はコメントを受け付けていません

QPGesture: Quantization-Based and Phase-Guided Motion Matching for Natural Speech-Driven Gesture Generation

要約 人間の動作にはランダムなジッターがあるため、音声駆動のジェスチャ生成は非常 … 続きを読む

カテゴリー: cs.CV, cs.HC, cs.MM, cs.SD, eess.AS | QPGesture: Quantization-Based and Phase-Guided Motion Matching for Natural Speech-Driven Gesture Generation はコメントを受け付けていません