eess.AS」カテゴリーアーカイブ

Task Oriented Dialogue as a Catalyst for Self-Supervised Automatic Speech Recognition

要約 自動音声認識(ASR)システムの単語エラー率は一貫して低下しているが、AS … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Task Oriented Dialogue as a Catalyst for Self-Supervised Automatic Speech Recognition はコメントを受け付けていません

Let There Be Sound: Reconstructing High Quality Speech from Silent Videos

要約 この研究の目標は、唇の動きのみから高品質の音声を再構成することであり、この … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Let There Be Sound: Reconstructing High Quality Speech from Silent Videos はコメントを受け付けていません

Perceptual Musical Features for Interpretable Audio Tagging

要約 音楽ストリーミングプラットフォームの時代において、音楽音声に自動的にタグを … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Perceptual Musical Features for Interpretable Audio Tagging はコメントを受け付けていません

Adversarial Representation Learning for Robust Privacy Preservation in Audio

要約 音イベント検出システムは、監視や環境モニタリングなどの様々なアプリケーショ … 続きを読む

カテゴリー: cs.CR, cs.LG, cs.SD, eess.AS | Adversarial Representation Learning for Robust Privacy Preservation in Audio はコメントを受け付けていません

Utilizing Neural Transducers for Two-Stage Text-to-Speech via Semantic Token Prediction

要約 我々は、ニューラル変換器を中心とした新しいテキスト音声合成(TTS)フレー … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Utilizing Neural Transducers for Two-Stage Text-to-Speech via Semantic Token Prediction はコメントを受け付けていません

Hallucinations in Neural Automatic Speech Recognition: Identifying Errors and Hallucinatory Models

要約 幻覚は、ディープ・ニューラル・ネットワークが生み出す出力エラーの一種である … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Hallucinations in Neural Automatic Speech Recognition: Identifying Errors and Hallucinatory Models はコメントを受け付けていません

Incremental FastPitch: Chunk-based High Quality Text to Speech

要約 並列音声合成モデルはリアルタイム音声合成に広く適用されており、従来の自動回 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Incremental FastPitch: Chunk-based High Quality Text to Speech はコメントを受け付けていません

CoMoSVC: Consistency Model-based Singing Voice Conversion

要約 拡散に基づく歌声変換(SVC)手法は、目標音色に類似した自然な音声を生成し … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | CoMoSVC: Consistency Model-based Singing Voice Conversion はコメントを受け付けていません

HAAQI-Net: A non-intrusive neural music quality assessment model for hearing aids

要約 この文書では、補聴器ユーザーに合わせた音楽品質評価のための非侵入型ディープ … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | HAAQI-Net: A non-intrusive neural music quality assessment model for hearing aids はコメントを受け付けていません

OpenVoice: Versatile Instant Voice Cloning

要約 OpenVoice を紹介します。OpenVoice は、基準話者の音声を … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | OpenVoice: Versatile Instant Voice Cloning はコメントを受け付けていません