eess.AS」カテゴリーアーカイブ

Dual-Attention Neural Transducers for Efficient Wake Word Spotting in Speech Recognition

要約 タイトル: 話者認識における二重注視ニューラルトランスデューサーによる効率 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Dual-Attention Neural Transducers for Efficient Wake Word Spotting in Speech Recognition はコメントを受け付けていません

AUDIT: Audio Editing by Following Instructions with Latent Diffusion Models

要約 タイトル: AUDIT: Audio Editing by Followi … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | AUDIT: Audio Editing by Following Instructions with Latent Diffusion Models はコメントを受け付けていません

Dual-Attention Neural Transducers for Efficient Wake Word Spotting in Speech Recognition

要約 タイトル:音声認識における効率的なウェイクワード検出のためのデュアルアテン … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Dual-Attention Neural Transducers for Efficient Wake Word Spotting in Speech Recognition はコメントを受け付けていません

Learning to Dub Movies via Hierarchical Prosody Models

要約 タイトル:階層的プロソディモデルに基づく映画の吹き替え学習 要約: ・映画 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Learning to Dub Movies via Hierarchical Prosody Models はコメントを受け付けていません

Designing and Evaluating Speech Emotion Recognition Systems: A reality check case study with IEMOCAP

要約 【タイトル】IEMOCAPを用いた発話感情認識システムの設計と評価:現実的 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Designing and Evaluating Speech Emotion Recognition Systems: A reality check case study with IEMOCAP はコメントを受け付けていません

Practical Conformer: Optimizing size, speed and flops of Conformer for on-Device and cloud ASR

要約 タイトル:実用的なConformer:オンデバイスおよびクラウドASRのた … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Practical Conformer: Optimizing size, speed and flops of Conformer for on-Device and cloud ASR はコメントを受け付けていません

Lego-Features: Exporting modular encoder features for streaming and deliberation ASR

要約 タイトル: Lego-Features:ストリーミングおよび審議 ASR … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Lego-Features: Exporting modular encoder features for streaming and deliberation ASR はコメントを受け付けていません

Multilingual Word Error Rate Estimation: e-WER3

要約 タイトル:Multilingual Word Error Rate Est … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Multilingual Word Error Rate Estimation: e-WER3 はコメントを受け付けていません

SIG-VC: A Speaker Information Guided Zero-shot Voice Conversion System for Both Human Beings and Machines

要約 タイトル:SIG-VC:人間と機械の両方のためのスピーカー情報ガイド付きゼ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | SIG-VC: A Speaker Information Guided Zero-shot Voice Conversion System for Both Human Beings and Machines はコメントを受け付けていません

Unsupervised Anomaly Detection and Localization of Machine Audio: A GAN-based Approach

要約 タイトル:機械音声の非教師あり異常検出と位置特定:GANベースのアプローチ … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Unsupervised Anomaly Detection and Localization of Machine Audio: A GAN-based Approach はコメントを受け付けていません