eess.AS」カテゴリーアーカイブ

MoonCast: High-Quality Zero-Shot Podcast Generation

要約 テキスト間合成の最近の進歩は、個々のスピーカーの高品質の短い発言を生み出す … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | MoonCast: High-Quality Zero-Shot Podcast Generation はコメントを受け付けていません

Personalized Speech Emotion Recognition in Human-Robot Interaction using Vision Transformers

要約 感情は口頭でのコミュニケーションにおいて不可欠な要素であるため、人間とロボ … 続きを読む

カテゴリー: cs.HC, cs.RO, cs.SD, eess.AS | Personalized Speech Emotion Recognition in Human-Robot Interaction using Vision Transformers はコメントを受け付けていません

LLM-based speaker diarization correction: A generalizable approach

要約 スピーカーダイアリゼーションは、自動化された音声認識(ASR)ツールを使用 … 続きを読む

カテゴリー: cs.CL, eess.AS | LLM-based speaker diarization correction: A generalizable approach はコメントを受け付けていません

Video-Guided Foley Sound Generation with Multimodal Controls

要約 ビデオのサウンドエフェクトを生成するには、多くの場合、実生活のソースとサウ … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Video-Guided Foley Sound Generation with Multimodal Controls はコメントを受け付けていません

Are Deep Speech Denoising Models Robust to Adversarial Noise?

要約 ディープノイズ抑制(DNS)モデルは、さまざまなハイステークス音声アプリケ … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Are Deep Speech Denoising Models Robust to Adversarial Noise? はコメントを受け付けていません

Exploring the Potential of Large Multimodal Models as Effective Alternatives for Pronunciation Assessment

要約 大規模なマルチモーダルモデル(LMM)は、幅広いドメインで並外れたパフォー … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Exploring the Potential of Large Multimodal Models as Effective Alternatives for Pronunciation Assessment はコメントを受け付けていません

Reproducible Machine Learning-based Voice Pathology Detection: Introducing the Pitch Difference Feature

要約 目的:公開されているSaarbr \ ‘ucken Voice … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Reproducible Machine Learning-based Voice Pathology Detection: Introducing the Pitch Difference Feature はコメントを受け付けていません

Designing Neural Synthesizers for Low Latency Interaction

要約 ニューラルオーディオ合成(NAS)モデルは、高品質で表現力のあるオーディオ … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Designing Neural Synthesizers for Low Latency Interaction はコメントを受け付けていません

Whisper Speaker Identification: Leveraging Pre-Trained Multilingual Transformers for Robust Speaker Embeddings

要約 多言語設定でのスピーカーの識別は、特に従来のモデルが主に英語のデータでトレ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS, I.2 | Whisper Speaker Identification: Leveraging Pre-Trained Multilingual Transformers for Robust Speaker Embeddings はコメントを受け付けていません

Joint Fine-tuning and Conversion of Pretrained Speech and Language Models towards Linear Complexity

要約 LinformerやMambaなどのアーキテクチャは、最近、変圧器の競合的 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | Joint Fine-tuning and Conversion of Pretrained Speech and Language Models towards Linear Complexity はコメントを受け付けていません