eess.AS」カテゴリーアーカイブ

Speech-based Slot Filling using Large Language Models

要約 最近、大規模言語モデル (LLM) の進歩により、さまざまな言語タスクにわ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Speech-based Slot Filling using Large Language Models はコメントを受け付けていません

Byte Pair Encoding for Symbolic Music

要約 深層学習で使用される場合、シンボリック音楽モダリティは言語モデル アーキテ … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Byte Pair Encoding for Symbolic Music はコメントを受け付けていません

E2E Spoken Entity Extraction for Virtual Agents

要約 人間とコンピューターの会話では、音声から名前、住所、電子メール アドレスな … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | E2E Spoken Entity Extraction for Virtual Agents はコメントを受け付けていません

Parkinson’s Disease Detection through Vocal Biomarkers and Advanced Machine Learning Algorithms: A Comprehensive Study

要約 パーキンソン病 (PD) は、運動ニューロンに影響を及ぼし、震え、硬直、歩 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Parkinson’s Disease Detection through Vocal Biomarkers and Advanced Machine Learning Algorithms: A Comprehensive Study はコメントを受け付けていません

Towards End-to-End Spoken Grammatical Error Correction

要約 文法的なフィードバックは、L2 の学習者、教師、試験者にとって非常に重要で … 続きを読む

カテゴリー: cs.CL, cs.LG, eess.AS | Towards End-to-End Spoken Grammatical Error Correction はコメントを受け付けていません

What Do I Hear? Generating Sounds for Visuals with ChatGPT

要約 この短いペーパーでは、ビジュアル メディアのリアルなサウンドスケープを生成 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | What Do I Hear? Generating Sounds for Visuals with ChatGPT はコメントを受け付けていません

Loss Masking Is Not Needed in Decoder-only Transformer for Discrete-token Based ASR

要約 最近、SpeechGPT、VioLA、AudioPaLM などの統合音声テ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Loss Masking Is Not Needed in Decoder-only Transformer for Discrete-token Based ASR はコメントを受け付けていません

Speech language models lack important brain-relevant semantics

要約 脳における読むことと聞くことの違いは知られていますが、最近の研究では、テキ … 続きを読む

カテゴリー: cs.CL, cs.LG, eess.AS, q-bio.NC | Speech language models lack important brain-relevant semantics はコメントを受け付けていません

Diff-HierVC: Diffusion-based Hierarchical Voice Conversion with Robust Pitch Generation and Masked Prior for Zero-shot Speaker Adaptation

要約 音声変換 (VC) システムは音声スタイルを転送する顕著な能力を示していま … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS, eess.SP | Diff-HierVC: Diffusion-based Hierarchical Voice Conversion with Robust Pitch Generation and Masked Prior for Zero-shot Speaker Adaptation はコメントを受け付けていません

Rethinking and Improving Multi-task Learning for End-to-end Speech Translation

要約 マルチタスク学習の適用により、エンドツーエンドの音声翻訳 (ST) が大幅 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Rethinking and Improving Multi-task Learning for End-to-end Speech Translation はコメントを受け付けていません