eess.AS」カテゴリーアーカイブ

Device-Robust Acoustic Scene Classification via Impulse Response Augmentation

要約 音声分類モデルにおいて、様々な録音機器への汎化能力は重要な性能要素である。 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Device-Robust Acoustic Scene Classification via Impulse Response Augmentation はコメントを受け付けていません

Better speech synthesis through scaling

要約 近年、画像生成の分野は、自己回帰変換器やDDPMの応用により、革命的な変化 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Better speech synthesis through scaling はコメントを受け付けていません

Investigating the Sensitivity of Automatic Speech Recognition Systems to Phonetic Variation in L2 Englishes

要約 自動音声認識(ASR)システムは、学習させた音声と類似した音声に対して最高 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Investigating the Sensitivity of Automatic Speech Recognition Systems to Phonetic Variation in L2 Englishes はコメントを受け付けていません

Improving Cascaded Unsupervised Speech Translation with Denoising Back-translation

要約 音声翻訳モデルの多くはパラレルデータに大きく依存しており、特に低リソース言 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Improving Cascaded Unsupervised Speech Translation with Denoising Back-translation はコメントを受け付けていません

Streaming Joint Speech Recognition and Disfluency Detection

要約 失語症検出は、主に音声認識の後処理として、パイプラインアプローチで解決され … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Streaming Joint Speech Recognition and Disfluency Detection はコメントを受け付けていません

The Pipeline System of ASR and NLU with MLM-based Data Augmentation toward STOP Low-resource Challenge

要約 本論文では、ICASSP Signal Processing Grand … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | The Pipeline System of ASR and NLU with MLM-based Data Augmentation toward STOP Low-resource Challenge はコメントを受け付けていません

Speaker Diaphragm Excursion Prediction: deep attention and online adaptation

要約 スピーカ保護アルゴリズムは、再生信号の特性を活用し、特に小さなスピーカを持 … 続きを読む

カテゴリー: cs.AI, cs.IT, cs.SD, eess.AS, math.IT | Speaker Diaphragm Excursion Prediction: deep attention and online adaptation はコメントを受け付けていません

Knowledge Transfer For On-Device Speech Emotion Recognition with Neural Structured Learning

要約 音声感情認識(SER)は、ヒューマンコンピュータインタラクション(HCI) … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Knowledge Transfer For On-Device Speech Emotion Recognition with Neural Structured Learning はコメントを受け付けていません

CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model

要約 デノイジング拡散確率モデル(DDPM)は、音声合成において有望な性能を示し … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM, cs.SD, eess.AS | CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model はコメントを受け付けていません

V2Meow: Meowing to the Visual Beat via Music Generation

要約 タイトル:V2Meow:音楽生成によるビジュアルビートのミウシカ 要約: … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | V2Meow: Meowing to the Visual Beat via Music Generation はコメントを受け付けていません