eess.AS」カテゴリーアーカイブ

MiniSUPERB: Lightweight Benchmark for Self-supervised Speech Models

要約 自己教師あり学習 (SSL) は、音声処理における人気の研究トピックです。 … 続きを読む

カテゴリー: cs.CL, cs.LG, eess.AS | MiniSUPERB: Lightweight Benchmark for Self-supervised Speech Models はコメントを受け付けていません

Debiased Automatic Speech Recognition for Dysarthric Speech via Sample Reweighting with Sample Affinity Test

要約 深層学習に基づく自動音声認識システムは、主に経験的リスク最小化 (ERM) … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Debiased Automatic Speech Recognition for Dysarthric Speech via Sample Reweighting with Sample Affinity Test はコメントを受け付けていません

BA-SOT: Boundary-Aware Serialized Output Training for Multi-Talker ASR

要約 最近提案されたシリアル化出力トレーニング (SOT) は、特殊なトークンで … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | BA-SOT: Boundary-Aware Serialized Output Training for Multi-Talker ASR はコメントを受け付けていません

A Stutter Seldom Comes Alone — Cross-Corpus Stuttering Detection as a Multi-label Problem

要約 吃音の検出と分類の研究のほとんどは、吃音を多クラスの分類問題、または流暢性 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | A Stutter Seldom Comes Alone — Cross-Corpus Stuttering Detection as a Multi-label Problem はコメントを受け付けていません

Towards single integrated spoofing-aware speaker verification embeddings

要約 この研究は、2 つの側面を満たす単一の統合されたなりすまし対応話者検証 ( … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Towards single integrated spoofing-aware speaker verification embeddings はコメントを受け付けていません

NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers

要約 Text-to-Speech(TTS)を大規模で複数の話者が存在する自然環 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers はコメントを受け付けていません

Unsupervised Melody-to-Lyric Generation

要約 メロディーから歌詞への自動生成は、指定されたメロディーに合わせて歌詞を生成 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Unsupervised Melody-to-Lyric Generation はコメントを受け付けていません

Make-A-Voice: Unified Voice Synthesis With Discrete Representation

要約 音声合成のさまざまなアプリケーションは、出力として「音声」を生成するという … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Make-A-Voice: Unified Voice Synthesis With Discrete Representation はコメントを受け付けていません

OverFlow: Putting flows on top of neural transducers for better TTS

要約 ニューラル HMM は、テキスト読み上げにおけるシーケンス間モデリング用に … 続きを読む

カテゴリー: 68T07, cs.HC, cs.LG, cs.SD, eess.AS, G.3 | OverFlow: Putting flows on top of neural transducers for better TTS はコメントを受け付けていません

Augmentation Invariant Discrete Representation for Generative Spoken Language Modeling

要約 生成音声言語モデリングの研究は、テキストによる監視にアクセスせずに生のオー … 続きを読む

カテゴリー: cs.CL, cs.LG, eess.AS | Augmentation Invariant Discrete Representation for Generative Spoken Language Modeling はコメントを受け付けていません