「eess.AS」カテゴリーアーカイブ

Multi-channel Speech Separation Using Spatially Selective Deep Non-linear Filters

投稿日: 2023年11月22日作成者: jarxiv

要約複数の話者によるマルチチャンネル分離タスクでは、混合物からすべての個々の音 … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Psychoacoustic Challenges Of Speech Enhancement On VoIP Platforms

投稿日: 2023年11月22日作成者: jarxiv

要約 VoIP (Voice over Internet Protocol) 通 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Speaker-Adapted End-to-End Visual Speech Recognition for Continuous Spanish

投稿日: 2023年11月22日作成者: jarxiv

要約さまざまな研究により、音声認識プロセス全体を通じて視覚的な手がかりが重要で … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Unified Segment-to-Segment Framework for Simultaneous Sequence Generation

投稿日: 2023年11月22日作成者: jarxiv

要約同時シーケンス生成は、ストリーミング音声認識、同時機械翻訳、同時音声翻訳な … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT

投稿日: 2023年11月22日作成者: jarxiv

要約 LyricWhiz は、ロックやメタルなどの難しいジャンルでも、さまざまな … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Influencer Videos: Unboxing the Mystique

投稿日: 2023年11月22日作成者: jarxiv

要約インフルエンサーマーケティングは、顧客にリーチするための非常に人気のある … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models

投稿日: 2023年11月21日作成者: jarxiv

要約この論文では、スタイルの拡散と大規模音声言語モデル (SLM) による敵対 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

StyleTTS: A Style-Based Generative Model for Natural and Diverse Text-to-Speech Synthesis

投稿日: 2023年11月21日作成者: jarxiv

要約 Text-to-Speech (TTS) は、並列 TTS システムの急速 … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Encoding Speaker-Specific Latent Speech Feature for Speech Synthesis

投稿日: 2023年11月21日作成者: jarxiv

要約この研究では、多数の話者をモデル化するための新しい方法を提案します。これに … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

The Song Describer Dataset: a Corpus of Audio Captions for Music-and-Language Evaluation

投稿日: 2023年11月21日作成者: jarxiv

要約音楽と言語のモデルを評価するために設計された、高品質のオーディオとキャプシ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

Multi-channel Speech Separation Using Spatially Selective Deep Non-linear Filters

Psychoacoustic Challenges Of Speech Enhancement On VoIP Platforms

Speaker-Adapted End-to-End Visual Speech Recognition for Continuous Spanish

Unified Segment-to-Segment Framework for Simultaneous Sequence Generation

LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT

Influencer Videos: Unboxing the Mystique

StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models

StyleTTS: A Style-Based Generative Model for Natural and Diverse Text-to-Speech Synthesis

Encoding Speaker-Specific Latent Speech Feature for Speech Synthesis

The Song Describer Dataset: a Corpus of Audio Captions for Music-and-Language Evaluation

最近の投稿

最近のコメント

アーカイブ

カテゴリー