
Timbre-Trap: A Low-Resource Framework for Instrument-Agnostic Music Transcription

要約 近年、音楽転写に関する研究は、主にアーキテクチャ設計と楽器固有のデータ取得 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Timbre-Trap: A Low-Resource Framework for Instrument-Agnostic Music Transcription はコメントを受け付けていません

Voxtlm: unified decoder-only models for consolidating speech recognition/synthesis and speech/text continuation tasks

要約 我々は、音声認識、音声合成、テキスト生成、音声継続という 4 つのタスクを … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Voxtlm: unified decoder-only models for consolidating speech recognition/synthesis and speech/text continuation tasks はコメントを受け付けていません

MF-AED-AEC: Speech Emotion Recognition by Leveraging Multimodal Fusion, ASR Error Detection, and ASR Error Correction

要約 音声感情認識 (SER) における一般的なアプローチには、音声情報とテキス … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | MF-AED-AEC: Speech Emotion Recognition by Leveraging Multimodal Fusion, ASR Error Detection, and ASR Error Correction はコメントを受け付けていません

PromptASR for contextualized ASR with controllable style

要約 プロンプトは、トピックや論理的関係などのコンテキスト情報を提供するため、大 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | PromptASR for contextualized ASR with controllable style はコメントを受け付けていません

SpeechDPR: End-to-End Spoken Passage Retrieval for Open-Domain Spoken Question Answering

要約 音声質問応答 (SQA) は、マシンが特定の音声パッセージ内の回答範囲を見 … 続きを読む

カテゴリー: cs.CL, cs.IR, cs.SD, eess.AS | SpeechDPR: End-to-End Spoken Passage Retrieval for Open-Domain Spoken Question Answering はコメントを受け付けていません

SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation

要約 効果的な音声モデリングの恩恵を受けて、現在の音声大規模言語モデル (SLL … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation はコメントを受け付けていません

Expressive Acoustic Guitar Sound Synthesis with an Instrument-Specific Input Representation and Diffusion Outpainting

要約 演奏用のギターサウンドを合成することは、同時発音数が多く表現の多様性が大き … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS, eess.SP | Expressive Acoustic Guitar Sound Synthesis with an Instrument-Specific Input Representation and Diffusion Outpainting はコメントを受け付けていません

Non-Intrusive Speech Intelligibility Prediction for Hearing-Impaired Users using Intermediate ASR Features and Human Memory Models

要約 ニューラル ネットワークは、非侵入的な音声明瞭度の予測に使用されて成功して … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Non-Intrusive Speech Intelligibility Prediction for Hearing-Impaired Users using Intermediate ASR Features and Human Memory Models はコメントを受け付けていません

Multilingual and Fully Non-Autoregressive ASR with Large Language Model Fusion: A Comprehensive Study

要約 大規模モデルの時代では、デコードの自己回帰的な性質により、レイテンシーが重 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Multilingual and Fully Non-Autoregressive ASR with Large Language Model Fusion: A Comprehensive Study はコメントを受け付けていません

Multilingual acoustic word embeddings for zero-resource languages

要約 この研究は、ラベル付きデータのないゼロリソース言語向けの音声アプリケーショ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Multilingual acoustic word embeddings for zero-resource languages はコメントを受け付けていません