「cs.SD」カテゴリーアーカイブ

Debiased Automatic Speech Recognition for Dysarthric Speech via Sample Reweighting with Sample Affinity Test

投稿日: 2023年5月31日作成者: jarxiv

要約深層学習に基づく自動音声認識システムは、主に経験的リスク最小化 (ERM) … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

BA-SOT: Boundary-Aware Serialized Output Training for Multi-Talker ASR

投稿日: 2023年5月31日作成者: jarxiv

要約最近提案されたシリアル化出力トレーニング (SOT) は、特殊なトークンで … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

A Stutter Seldom Comes Alone — Cross-Corpus Stuttering Detection as a Multi-label Problem

投稿日: 2023年5月31日作成者: jarxiv

要約吃音の検出と分類の研究のほとんどは、吃音を多クラスの分類問題、または流暢性 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Towards single integrated spoofing-aware speaker verification embeddings

投稿日: 2023年5月31日作成者: jarxiv

要約この研究は、2 つの側面を満たす単一の統合されたなりすまし対応話者検証 ( … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers

投稿日: 2023年5月31日作成者: jarxiv

要約 Text-to-Speech（TTS）を大規模で複数の話者が存在する自然環 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Unsupervised Melody-to-Lyric Generation

投稿日: 2023年5月31日作成者: jarxiv

要約メロディーから歌詞への自動生成は、指定されたメロディーに合わせて歌詞を生成 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Make-A-Voice: Unified Voice Synthesis With Discrete Representation

投稿日: 2023年5月31日作成者: jarxiv

要約音声合成のさまざまなアプリケーションは、出力として「音声」を生成するという … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

OverFlow: Putting flows on top of neural transducers for better TTS

投稿日: 2023年5月30日作成者: jarxiv

要約ニューラル HMM は、テキスト読み上げにおけるシーケンス間モデリング用に … 続きを読む →

カテゴリー: 68T07, cs.HC, cs.LG, cs.SD, eess.AS, G.3 | コメントを受け付けていません

Can We Trust Explainable AI Methods on ASR? An Evaluation on Phoneme Recognition

投稿日: 2023年5月30日作成者: jarxiv

要約 Explainable AI (XAI) 技術は、画像分類や自然言語処理な … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

InterFormer: Interactive Local and Global Features Fusion for Automatic Speech Recognition

投稿日: 2023年5月30日作成者: jarxiv

要約ローカル機能とグローバル機能はどちらも自動音声認識 (ASR) に不可欠で … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

Debiased Automatic Speech Recognition for Dysarthric Speech via Sample Reweighting with Sample Affinity Test

BA-SOT: Boundary-Aware Serialized Output Training for Multi-Talker ASR

A Stutter Seldom Comes Alone — Cross-Corpus Stuttering Detection as a Multi-label Problem

Towards single integrated spoofing-aware speaker verification embeddings

NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers

Unsupervised Melody-to-Lyric Generation

Make-A-Voice: Unified Voice Synthesis With Discrete Representation

OverFlow: Putting flows on top of neural transducers for better TTS

Can We Trust Explainable AI Methods on ASR? An Evaluation on Phoneme Recognition

InterFormer: Interactive Local and Global Features Fusion for Automatic Speech Recognition

最近の投稿

最近のコメント

アーカイブ

カテゴリー