cs.SD」カテゴリーアーカイブ

Reinforcement Learning Outperforms Supervised Fine-Tuning: A Case Study on Audio Question Answering

要約 最近、強化学習(RL)は、大規模な言語モデル(LLM)の推論能力を大幅に強 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Reinforcement Learning Outperforms Supervised Fine-Tuning: A Case Study on Audio Question Answering はコメントを受け付けていません

MoonCast: High-Quality Zero-Shot Podcast Generation

要約 テキスト間合成の最近の進歩は、個々のスピーカーの高品質の短い発言を生み出す … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | MoonCast: High-Quality Zero-Shot Podcast Generation はコメントを受け付けていません

AdaST: Dynamically Adapting Encoder States in the Decoder for End-to-End Speech-to-Text Translation

要約 エンドツーエンドの音声翻訳では、エンコーダーによって学んだ音響表現は、通常 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | AdaST: Dynamically Adapting Encoder States in the Decoder for End-to-End Speech-to-Text Translation はコメントを受け付けていません

TCSinger: Zero-Shot Singing Voice Synthesis with Style Transfer and Multi-Level Style Control

要約 スタイル転送とスタイルコントロールを備えたゼロショット歌声合成(SVS)は … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | TCSinger: Zero-Shot Singing Voice Synthesis with Style Transfer and Multi-Level Style Control はコメントを受け付けていません

MoonCast: High-Quality Zero-Shot Podcast Generation

要約 テキスト間合成の最近の進歩は、個々のスピーカーの高品質の短い発言を生み出す … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | MoonCast: High-Quality Zero-Shot Podcast Generation はコメントを受け付けていません

Personalized Speech Emotion Recognition in Human-Robot Interaction using Vision Transformers

要約 感情は口頭でのコミュニケーションにおいて不可欠な要素であるため、人間とロボ … 続きを読む

カテゴリー: cs.HC, cs.RO, cs.SD, eess.AS | Personalized Speech Emotion Recognition in Human-Robot Interaction using Vision Transformers はコメントを受け付けていません

Video-Guided Foley Sound Generation with Multimodal Controls

要約 ビデオのサウンドエフェクトを生成するには、多くの場合、実生活のソースとサウ … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Video-Guided Foley Sound Generation with Multimodal Controls はコメントを受け付けていません

Are Deep Speech Denoising Models Robust to Adversarial Noise?

要約 ディープノイズ抑制(DNS)モデルは、さまざまなハイステークス音声アプリケ … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Are Deep Speech Denoising Models Robust to Adversarial Noise? はコメントを受け付けていません

Exploring the Potential of Large Multimodal Models as Effective Alternatives for Pronunciation Assessment

要約 大規模なマルチモーダルモデル(LMM)は、幅広いドメインで並外れたパフォー … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Exploring the Potential of Large Multimodal Models as Effective Alternatives for Pronunciation Assessment はコメントを受け付けていません

Reproducible Machine Learning-based Voice Pathology Detection: Introducing the Pitch Difference Feature

要約 目的:公開されているSaarbr \ ‘ucken Voice … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Reproducible Machine Learning-based Voice Pathology Detection: Introducing the Pitch Difference Feature はコメントを受け付けていません