「cs.SD」カテゴリーアーカイブ

SpokesBiz — an Open Corpus of Conversational Polish

投稿日: 2023年12月20日作成者: jarxiv

要約この文書は、CLARIN-BIZ プロジェクト内で開発され、650 時間以 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

StyleSpeech: Self-supervised Style Enhancing with VQ-VAE-based Pre-training for Expressive Audiobook Speech Synthesis

投稿日: 2023年12月20日作成者: jarxiv

要約オーディオブック用の合成音声の表現品質は、一般化されたモデルアーキテクチ … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Anonymizing Speech: Evaluating and Designing Speaker Anonymization Techniques

投稿日: 2023年12月20日作成者: jarxiv

要約音声ユーザーインターフェイスの使用の増加により、音声データの収集と保存が … 続きを読む →

カテゴリー: cs.AI, cs.CR, cs.SD, eess.AS | コメントを受け付けていません

Human Voice Pitch Estimation: A Convolutional Network with Auto-Labeled and Synthetic Data

投稿日: 2023年12月19日作成者: jarxiv

要約音楽とサウンド処理の分野では、ピッチ抽出が極めて重要な役割を果たします。 … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

ParrotTTS: Text-to-Speech synthesis by exploiting self-supervised representations

投稿日: 2023年12月19日作成者: jarxiv

要約我々は、もつれを解いた自己教師あり音声表現を活用したモジュール化されたテキ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Zero Resource Code-switched Speech Benchmark Using Speech Utterance Pairs For Multiple Spoken Languages

投稿日: 2023年12月19日作成者: jarxiv

要約自己監視型音声エンコーダのコードスイッチング機能を直接評価するために設計さ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Audio Generation with Multiple Conditional Diffusion Model

投稿日: 2023年12月19日作成者: jarxiv

要約テキストベースのオーディオ生成モデルには、オーディオ内のすべての情報を網羅 … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

StyleSinger: Style Transfer for Out-Of-Domain Singing Voice Synthesis

投稿日: 2023年12月19日作成者: jarxiv

要約ドメイン外 (OOD) 歌声合成 (SVS) のためのスタイル転送は、リフ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Exploring Sound vs Vibration for Robust Fault Detection on Rotating Machinery

投稿日: 2023年12月19日作成者: jarxiv

要約回転機械の故障を堅牢かつリアルタイムで検出することは、さまざまな業界におけ … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

CIF-T: A Novel CIF-based Transducer Architecture for Automatic Speech Recognition

投稿日: 2023年12月18日作成者: jarxiv

要約 RNN-T モデルは ASR で広く使用されており、RNN-T 損失に依存 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

SpokesBiz — an Open Corpus of Conversational Polish

StyleSpeech: Self-supervised Style Enhancing with VQ-VAE-based Pre-training for Expressive Audiobook Speech Synthesis

Anonymizing Speech: Evaluating and Designing Speaker Anonymization Techniques

Human Voice Pitch Estimation: A Convolutional Network with Auto-Labeled and Synthetic Data

ParrotTTS: Text-to-Speech synthesis by exploiting self-supervised representations

Zero Resource Code-switched Speech Benchmark Using Speech Utterance Pairs For Multiple Spoken Languages

Audio Generation with Multiple Conditional Diffusion Model

StyleSinger: Style Transfer for Out-Of-Domain Singing Voice Synthesis

Exploring Sound vs Vibration for Robust Fault Detection on Rotating Machinery

CIF-T: A Novel CIF-based Transducer Architecture for Automatic Speech Recognition

最近の投稿

最近のコメント

アーカイブ

カテゴリー