eess.AS」カテゴリーアーカイブ

DSVAE: Interpretable Disentangled Representation for Synthetic Speech Detection

要約 タイトル:DSVAE:合成音声検出のための解釈可能な分離表現 要約: &# … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | DSVAE: Interpretable Disentangled Representation for Synthetic Speech Detection はコメントを受け付けていません

Efficient Audio Captioning Transformer with Patchout and Text Guidance

要約 タイトル:Patchoutおよびテキストガイダンスを用いた効率的な音声キャ … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS, F.2.2 | Efficient Audio Captioning Transformer with Patchout and Text Guidance はコメントを受け付けていません

Zero-shot domain adaptation of anomalous samples for semi-supervised anomaly detection

要約 タイトル:ゼロショットドメイン適応による半教師あり異常検知の不審なサンプル … 続きを読む

カテゴリー: cs.LG, eess.AS | Zero-shot domain adaptation of anomalous samples for semi-supervised anomaly detection はコメントを受け付けていません

On the Impact of Voice Anonymization on Speech-Based COVID-19 Detection

要約 タイトル: 音声匿名化が発話に基づくCOVID-19検出に与える影響につい … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | On the Impact of Voice Anonymization on Speech-Based COVID-19 Detection はコメントを受け付けていません

Beyond Universal Transformer: block reusing with adaptor in Transformer for automatic speech recognition

要約 タイトル:Beyond Universal Transformer:自動音 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Beyond Universal Transformer: block reusing with adaptor in Transformer for automatic speech recognition はコメントを受け付けていません

Vision Transformers are Parameter-Efficient Audio-Visual Learners

要約 【タイトル】ビジョン・トランスフォーマーは効率的なパラメーターでオーディオ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.SD, eess.AS | Vision Transformers are Parameter-Efficient Audio-Visual Learners はコメントを受け付けていません

Dual-Attention Neural Transducers for Efficient Wake Word Spotting in Speech Recognition

要約 タイトル: 話者認識における二重注視ニューラルトランスデューサーによる効率 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Dual-Attention Neural Transducers for Efficient Wake Word Spotting in Speech Recognition はコメントを受け付けていません

AUDIT: Audio Editing by Following Instructions with Latent Diffusion Models

要約 タイトル: AUDIT: Audio Editing by Followi … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | AUDIT: Audio Editing by Following Instructions with Latent Diffusion Models はコメントを受け付けていません

Dual-Attention Neural Transducers for Efficient Wake Word Spotting in Speech Recognition

要約 タイトル:音声認識における効率的なウェイクワード検出のためのデュアルアテン … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Dual-Attention Neural Transducers for Efficient Wake Word Spotting in Speech Recognition はコメントを受け付けていません

Learning to Dub Movies via Hierarchical Prosody Models

要約 タイトル:階層的プロソディモデルに基づく映画の吹き替え学習 要約: ・映画 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Learning to Dub Movies via Hierarchical Prosody Models はコメントを受け付けていません