cs.SD」カテゴリーアーカイブ

Distilling HuBERT with LSTMs via Decoupled Knowledge Distillation

要約 自己教師ありモデルの知識を圧縮するタスクには、多くの研究努力が注がれていま … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS, eess.SP | Distilling HuBERT with LSTMs via Decoupled Knowledge Distillation はコメントを受け付けていません

Training dynamic models using early exits for automatic speech recognition on resource-constrained devices

要約 推論時にニューラル モデルの計算負荷を動的に変更できることは、計算能力が限 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Training dynamic models using early exits for automatic speech recognition on resource-constrained devices はコメントを受け付けていません

Kid-Whisper: Towards Bridging the Performance Gap in Automatic Speech Recognition for Children VS. Adults

要約 Whisper に代表される自動音声認識 (ASR) システムの最近の進歩 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Kid-Whisper: Towards Bridging the Performance Gap in Automatic Speech Recognition for Children VS. Adults はコメントを受け付けていません

Speeding Up Speech Synthesis In Diffusion Models By Reducing Data Distribution Recovery Steps Via Content Transfer

要約 拡散ベースのボコーダーは、サンプリング中に多くのステップが必要となるため、 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Speeding Up Speech Synthesis In Diffusion Models By Reducing Data Distribution Recovery Steps Via Content Transfer はコメントを受け付けていません

Do learned speech symbols follow Zipf’s law?

要約 この研究では、深層学習を通じて学習された音声記号が、自然言語記号に似たジッ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Do learned speech symbols follow Zipf’s law? はコメントを受け付けていません

Watch the Speakers: A Hybrid Continuous Attribution Network for Emotion Recognition in Conversation With Emotion Disentanglement

要約 会話中の感情認識 (ERC) は、実用化の可能性が非常に高いため、自然言語 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Watch the Speakers: A Hybrid Continuous Attribution Network for Emotion Recognition in Conversation With Emotion Disentanglement はコメントを受け付けていません

Hypr: A comprehensive study for ASR hypothesis revising with a reference corpus

要約 ディープラーニングの発展に伴い、自動音声認識 (ASR) は大幅に進歩しま … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Hypr: A comprehensive study for ASR hypothesis revising with a reference corpus はコメントを受け付けていません

Instruction-Following Speech Recognition

要約 従来のエンドツーエンドの自動音声認識 (ASR) モデルは、主に正確な文字 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Instruction-Following Speech Recognition はコメントを受け付けていません

RECAP: Retrieval-Augmented Audio Captioning

要約 RECAP (REtrieval-Augmented Audio CAPt … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | RECAP: Retrieval-Augmented Audio Captioning はコメントを受け付けていません

Text-Driven Foley Sound Generation With Latent Diffusion Model

要約 フォーリー サウンド生成は、マルチメディア コンテンツの背景サウンドを合成 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Text-Driven Foley Sound Generation With Latent Diffusion Model はコメントを受け付けていません