「cs.SD」カテゴリーアーカイブ

Dialectal Coverage And Generalization in Arabic Speech Recognition

投稿日: 2024年12月5日作成者: jarxiv

要約豊かな方言多様性を特徴とし、音声技術においてリソースが少ない言語とみなされ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

DiffStyleTTS: Diffusion-based Hierarchical Prosody Modeling for Text-to-Speech with Diverse and Controllable Styles

投稿日: 2024年12月5日作成者: jarxiv

要約人間の音声は豊かで柔軟な韻律のバリエーションを示します。合理的かつ柔軟な … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

SINGER: Vivid Audio-driven Singing Video Generation with Multi-scale Spectral Diffusion Model

投稿日: 2024年12月5日作成者: jarxiv

要約生成モデルの最近の進歩により、話し顔ビデオの生成は大幅に強化されましたが、 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.SD | コメントを受け付けていません

GLM-4-Voice: Towards Intelligent and Human-Like End-to-End Spoken Chatbot

投稿日: 2024年12月4日作成者: jarxiv

要約 GLM-4-Voiceを紹介します。GLM-4-Voiceは、インテリジェ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information?

投稿日: 2024年12月4日作成者: jarxiv

要約近年、GPT-4o、Gemini 1.5 Pro、Reka Coreなどの … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

TTSDS — Text-to-Speech Distribution Score

投稿日: 2024年12月3日作成者: jarxiv

要約最近公開された Text-to-Speech (TTS) システムの多くは … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Scaling Speech-Text Pre-training with Synthetic Interleaved Data

投稿日: 2024年12月3日作成者: jarxiv

要約音声言語モデル (SpeechLM) は、音声入力を受け入れて音声出力を生 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

End-to-End Supervised Hierarchical Graph Clustering for Speaker Diarization

投稿日: 2024年12月3日作成者: jarxiv

要約話者ダイアライゼーションは、話者のアイデンティティに基づいてオーディオ録音 … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Unsupervised Speaker Diarization in Distributed IoT Networks Using Federated Learning

投稿日: 2024年12月2日作成者: jarxiv

要約このペーパーでは、ネットワーク化された IoT スタイルのオーディオデバ … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Noro: A Noise-Robust One-shot Voice Conversion System with Hidden Speaker Representation Capabilities

投稿日: 2024年12月2日作成者: jarxiv

要約ワンショット音声変換 (VC) は、元のソース音声の意味内容を保持しながら … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

Dialectal Coverage And Generalization in Arabic Speech Recognition

DiffStyleTTS: Diffusion-based Hierarchical Prosody Modeling for Text-to-Speech with Diverse and Controllable Styles

SINGER: Vivid Audio-driven Singing Video Generation with Multi-scale Spectral Diffusion Model

GLM-4-Voice: Towards Intelligent and Human-Like End-to-End Spoken Chatbot

AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information?

TTSDS — Text-to-Speech Distribution Score

Scaling Speech-Text Pre-training with Synthetic Interleaved Data

End-to-End Supervised Hierarchical Graph Clustering for Speaker Diarization

Unsupervised Speaker Diarization in Distributed IoT Networks Using Federated Learning

Noro: A Noise-Robust One-shot Voice Conversion System with Hidden Speaker Representation Capabilities

最近の投稿

最近のコメント

アーカイブ

カテゴリー