eess.AS」カテゴリーアーカイブ

Hybrid Multimodal Feature Extraction, Mining and Fusion for Sentiment Analysis

要約 本論文では,MuSe-Humor, MuSe-Reaction, MuSe … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS, eess.IV | Hybrid Multimodal Feature Extraction, Mining and Fusion for Sentiment Analysis はコメントを受け付けていません

ECLIPSE: Efficient Long-range Video Retrieval using Sight and Sound

要約 テキストからビデオへの長距離検索のためのオーディオビジュアル手法を紹介しま … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.SD, eess.AS | ECLIPSE: Efficient Long-range Video Retrieval using Sight and Sound はコメントを受け付けていません

Towards Unconstrained Audio Splicing Detection and Localization with Neural Networks

要約 無料で利用できる使いやすいオーディオ編集ツールを使用すると、オーディオのス … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.SD, eess.AS | Towards Unconstrained Audio Splicing Detection and Localization with Neural Networks はコメントを受け付けていません

End-To-End Audiovisual Feature Fusion for Active Speaker Detection

要約 アクティブスピーカー検出は、人間と機械の相互作用において重要な役割を果たし … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | End-To-End Audiovisual Feature Fusion for Active Speaker Detection はコメントを受け付けていません

VoViT: Low Latency Graph-based Audio-Visual Voice Separation Transformer

要約 このホワイトペーパーでは、音声と歌声の2つのシナリオで、低遅延で最先端の結 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | VoViT: Low Latency Graph-based Audio-Visual Voice Separation Transformer はコメントを受け付けていません

Quantized GAN for Complex Music Generation from Dance Videos

要約 Dance2Music-GAN(D2M-GAN)は、ダンスビデオを条件とし … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Quantized GAN for Complex Music Generation from Dance Videos はコメントを受け付けていません

Position Prediction as an Effective Pretraining Strategy

要約 トランスフォーマーは、その強力な表現能力により、自然言語処理(NLP)、コ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | Position Prediction as an Effective Pretraining Strategy はコメントを受け付けていません

A Single Self-Supervised Model for Many Speech Modalities Enables Zero-Shot Modality Transfer

要約 視聴覚音声モデルは、音声のみのモデルと比較して優れたパフォーマンスと堅牢性 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.SD, eess.AS, eess.IV | A Single Self-Supervised Model for Many Speech Modalities Enables Zero-Shot Modality Transfer はコメントを受け付けていません

Audio-Visual Segmentation

要約 視聴覚セグメンテーション(AVS)と呼ばれる新しい問題を調査することを提案 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS, eess.IV | Audio-Visual Segmentation はコメントを受け付けていません

FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech Synthesis

要約 制約のない唇から音声への合成は、頭のポーズや語彙に制限がなく、話している顔 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SD, eess.AS, I.2.10 | FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech Synthesis はコメントを受け付けていません