「eess.AS」カテゴリーアーカイブ

Audio Contrastive based Fine-tuning

投稿日: 2023年9月22日作成者: jarxiv

要約音声分類は、幅広い用途の音声および音声処理タスクにおいて重要な役割を果たし … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models

投稿日: 2023年9月22日作成者: jarxiv

要約近年、拡散モデルへの関心の高まりにより、画像と音声の生成が大幅に進歩しまし … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

L1-aware Multilingual Mispronunciation Detection Framework

投稿日: 2023年9月22日作成者: jarxiv

要約話者の母語 (L1) と非母語 (L2) の間の音韻の不一致は、発音の誤り … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Bridging the Gaps of Both Modality and Language: Synchronous Bilingual CTC for Speech Translation and Speech Recognition

投稿日: 2023年9月22日作成者: jarxiv

要約この研究では、音声翻訳 (ST) タスクにおけるモダリティと言語の両方のギ … 続きを読む →

カテゴリー: cs.CL, eess.AS | コメントを受け付けていません

CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model

投稿日: 2023年9月22日作成者: jarxiv

要約ノイズ除去拡散確率モデル (DDPM) は、音声合成において有望なパフォー … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

TalkNCE: Improving Active Speaker Detection with Talk-Aware Contrastive Learning

投稿日: 2023年9月22日作成者: jarxiv

要約この研究の目標は、一連のビデオフレーム内で人が話しているかどうかを判断す … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Analyzing And Improving Neural Speaker Embeddings for ASR

投稿日: 2023年9月21日作成者: jarxiv

要約ニューラル話者埋め込みは、DNN モデルを通じて話者の音声特性をエンコード … 続きを読む →

カテゴリー: cs.CL, eess.AS, stat.ML | コメントを受け付けていません

Development of Hybrid ASR Systems for Low Resource Medical Domain Conversational Telephone Speech

投稿日: 2023年9月21日作成者: jarxiv

要約ますますつながりが増し、グローバル化が進む世界では、言語の壁が大きな課題と … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

PromptASR for contextualized ASR with controllable style

投稿日: 2023年9月21日作成者: jarxiv

要約プロンプトは、トピックや論理的関係などのコンテキスト情報を提供するため、大 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Speak While You Think: Streaming Speech Synthesis During Text Generation

投稿日: 2023年9月21日作成者: jarxiv

要約大規模言語モデル (LLM) は優れた機能を示しますが、これらのモデルとの … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

Audio Contrastive based Fine-tuning

ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models

L1-aware Multilingual Mispronunciation Detection Framework

Bridging the Gaps of Both Modality and Language: Synchronous Bilingual CTC for Speech Translation and Speech Recognition

CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model

TalkNCE: Improving Active Speaker Detection with Talk-Aware Contrastive Learning

Analyzing And Improving Neural Speaker Embeddings for ASR

Development of Hybrid ASR Systems for Low Resource Medical Domain Conversational Telephone Speech

PromptASR for contextualized ASR with controllable style

Speak While You Think: Streaming Speech Synthesis During Text Generation

最近の投稿

最近のコメント

アーカイブ

カテゴリー