「cs.SD」カテゴリーアーカイブ

Automatic Speech Recognition of Non-Native Child Speech for Language Learning Applications

投稿日: 2023年6月30日作成者: jarxiv

要約ボイスボットは、特に第二言語学習の文脈において、言語スキルの発達をサポート … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

MooseNet: A Trainable Metric for Synthesized Speech with a PLDA Module

投稿日: 2023年6月30日作成者: jarxiv

要約私たちは、聞き手の平均意見スコア (MOS) を予測する訓練可能な音声指標 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Leveraging Cross-Utterance Context For ASR Decoding

投稿日: 2023年6月30日作成者: jarxiv

要約外部言語モデル (LM) は自動音声認識システムのデコード段階に組み込まれ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Predicting Music Hierarchies with a Graph-Based Neural Decoder

投稿日: 2023年6月30日作成者: jarxiv

要約この論文では、音楽シーケンスを依存関係ツリーに解析するためのデータ駆動型フ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

High-Quality Automatic Voice Over with Accurate Alignment: Supervision through Self-Supervised Discrete Speech Units

投稿日: 2023年6月30日作成者: jarxiv

要約自動ボイスオーバー (AVO) の目標は、指定されたテキストスクリプトに … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT

投稿日: 2023年6月30日作成者: jarxiv

要約 LyricWhiz は、ロックやメタルなどの難しいジャンルでも、さまざまな … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Long-term Conversation Analysis: Exploring Utility and Privacy

投稿日: 2023年6月29日作成者: jarxiv

要約日常生活で記録された会話の分析にはプライバシーの保護が必要です。この寄稿 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

DC CoMix TTS: An End-to-End Expressive TTS with Discrete Code Collaborated with Mixer

投稿日: 2023年6月29日作成者: jarxiv

要約中立的な TTS は大きな成功を収めましたが、コンテンツの漏洩は依然として … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Improving Primate Sounds Classification using Binary Presorting for Deep Learning

投稿日: 2023年6月29日作成者: jarxiv

要約野生動物の観察と保護の分野では、音声録音の機械学習を伴うアプローチがますま … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels

投稿日: 2023年6月29日作成者: jarxiv

要約オーディオビジュアル音声認識は、音響ノイズに対する堅牢性により多くの注目を … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

Automatic Speech Recognition of Non-Native Child Speech for Language Learning Applications

MooseNet: A Trainable Metric for Synthesized Speech with a PLDA Module

Leveraging Cross-Utterance Context For ASR Decoding

Predicting Music Hierarchies with a Graph-Based Neural Decoder

High-Quality Automatic Voice Over with Accurate Alignment: Supervision through Self-Supervised Discrete Speech Units

LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT

Long-term Conversation Analysis: Exploring Utility and Privacy

DC CoMix TTS: An End-to-End Expressive TTS with Discrete Code Collaborated with Mixer

Improving Primate Sounds Classification using Binary Presorting for Deep Learning

Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels

最近の投稿

最近のコメント

アーカイブ

カテゴリー