eess.AS」カテゴリーアーカイブ

Investigating the Sensitivity of Automatic Speech Recognition Systems to Phonetic Variation in L2 Englishes

要約 自動音声認識(ASR)システムは、学習させた音声と類似した音声に対して最高 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Investigating the Sensitivity of Automatic Speech Recognition Systems to Phonetic Variation in L2 Englishes はコメントを受け付けていません

Improving Cascaded Unsupervised Speech Translation with Denoising Back-translation

要約 音声翻訳モデルの多くはパラレルデータに大きく依存しており、特に低リソース言 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Improving Cascaded Unsupervised Speech Translation with Denoising Back-translation はコメントを受け付けていません

Streaming Joint Speech Recognition and Disfluency Detection

要約 失語症検出は、主に音声認識の後処理として、パイプラインアプローチで解決され … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Streaming Joint Speech Recognition and Disfluency Detection はコメントを受け付けていません

The Pipeline System of ASR and NLU with MLM-based Data Augmentation toward STOP Low-resource Challenge

要約 本論文では、ICASSP Signal Processing Grand … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | The Pipeline System of ASR and NLU with MLM-based Data Augmentation toward STOP Low-resource Challenge はコメントを受け付けていません

Speaker Diaphragm Excursion Prediction: deep attention and online adaptation

要約 スピーカ保護アルゴリズムは、再生信号の特性を活用し、特に小さなスピーカを持 … 続きを読む

カテゴリー: cs.AI, cs.IT, cs.SD, eess.AS, math.IT | Speaker Diaphragm Excursion Prediction: deep attention and online adaptation はコメントを受け付けていません

Knowledge Transfer For On-Device Speech Emotion Recognition with Neural Structured Learning

要約 音声感情認識(SER)は、ヒューマンコンピュータインタラクション(HCI) … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Knowledge Transfer For On-Device Speech Emotion Recognition with Neural Structured Learning はコメントを受け付けていません

CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model

要約 デノイジング拡散確率モデル(DDPM)は、音声合成において有望な性能を示し … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM, cs.SD, eess.AS | CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model はコメントを受け付けていません

V2Meow: Meowing to the Visual Beat via Music Generation

要約 タイトル:V2Meow:音楽生成によるビジュアルビートのミウシカ 要約: … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | V2Meow: Meowing to the Visual Beat via Music Generation はコメントを受け付けていません

Speech Driven Video Editing via an Audio-Conditioned Diffusion Model

要約 タイトル:音声条件付き拡散モデルによる音声駆動のビデオ編集 要約: &#8 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | Speech Driven Video Editing via an Audio-Conditioned Diffusion Model はコメントを受け付けていません

Modelling black-box audio effects with time-varying feature modulation

要約 タイトル:タイムバリング特徴調整を用いたブラックボックスオーディオエフェク … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Modelling black-box audio effects with time-varying feature modulation はコメントを受け付けていません