「cs.SD」カテゴリーアーカイブ

ECLIPSE: Efficient Long-range Video Retrieval using Sight and Sound

投稿日: 2022年8月3日作成者: jarxiv

要約テキストからビデオへの長距離検索のためのオーディオビジュアル手法を紹介しま … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Towards Unconstrained Audio Splicing Detection and Localization with Neural Networks

投稿日: 2022年8月1日作成者: jarxiv

要約無料で利用できる使いやすいオーディオ編集ツールを使用すると、オーディオのス … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.SD, eess.AS | コメントを受け付けていません

End-To-End Audiovisual Feature Fusion for Active Speaker Detection

投稿日: 2022年7月28日作成者: jarxiv

要約アクティブスピーカー検出は、人間と機械の相互作用において重要な役割を果たし … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

VoViT: Low Latency Graph-based Audio-Visual Voice Separation Transformer

投稿日: 2022年7月20日作成者: jarxiv

要約このホワイトペーパーでは、音声と歌声の2つのシナリオで、低遅延で最先端の結 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Quantized GAN for Complex Music Generation from Dance Videos

投稿日: 2022年7月20日作成者: jarxiv

要約 Dance2Music-GAN（D2M-GAN）は、ダンスビデオを条件とし … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Position Prediction as an Effective Pretraining Strategy

投稿日: 2022年7月18日作成者: jarxiv

要約トランスフォーマーは、その強力な表現能力により、自然言語処理（NLP）、コ … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

A Single Self-Supervised Model for Many Speech Modalities Enables Zero-Shot Modality Transfer

投稿日: 2022年7月15日作成者: jarxiv

要約視聴覚音声モデルは、音声のみのモデルと比較して優れたパフォーマンスと堅牢性 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.SD, eess.AS, eess.IV | コメントを受け付けていません

Audio-Visual Segmentation

投稿日: 2022年7月12日作成者: jarxiv

要約視聴覚セグメンテーション（AVS）と呼ばれる新しい問題を調査することを提案 … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS, eess.IV | コメントを受け付けていません

FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech Synthesis

投稿日: 2022年7月11日作成者: jarxiv

要約制約のない唇から音声への合成は、頭のポーズや語彙に制限がなく、話している顔 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SD, eess.AS, I.2.10 | コメントを受け付けていません

Self-Supervised Learning of Music-Dance Representation through Explicit-Implicit Rhythm Synchronization

投稿日: 2022年7月8日作成者: jarxiv

要約視聴覚表現は多くの下流のタスクに適用可能であることが証明されていますが、よ … 続きを読む →