cs.SD」カテゴリーアーカイブ

Efficient Adapter Finetuning for Tail Languages in Streaming Multilingual ASR

要約 エンドツーエンドの ASR モデルは、展開が容易であり、強力な基盤モデルな … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Efficient Adapter Finetuning for Tail Languages in Streaming Multilingual ASR はコメントを受け付けていません

Multilingual DistilWhisper: Efficient Distillation of Multi-task Speech Models via Language-Specific Experts

要約 Whisper は、99 言語をカバーするマルチタスクおよび多言語音声モデ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Multilingual DistilWhisper: Efficient Distillation of Multi-task Speech Models via Language-Specific Experts はコメントを受け付けていません

SummaryMixing: A Linear-Complexity Alternative to Self-Attention for Speech Recognition and Understanding

要約 現代の音声処理システムは自己注意に依存しています。 残念ながら、自己注意を … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | SummaryMixing: A Linear-Complexity Alternative to Self-Attention for Speech Recognition and Understanding はコメントを受け付けていません

T-FOLEY: A Controllable Waveform-Domain Diffusion Model for Temporal-Event-Guided Foley Sound Synthesis

要約 フォーリー サウンド、つまりビデオと同時に挿入されるオーディオ コンテンツ … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS, eess.SP | T-FOLEY: A Controllable Waveform-Domain Diffusion Model for Temporal-Event-Guided Foley Sound Synthesis はコメントを受け付けていません

An Explainable Proxy Model for Multiabel Audio Segmentation

要約 オーディオ信号のセグメンテーションは、自動オーディオ インデックス作成の重 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS, eess.SP | An Explainable Proxy Model for Multiabel Audio Segmentation はコメントを受け付けていません

From Coarse to Fine: Efficient Training for Audio Spectrogram Transformers

要約 トランスは、オーディオ分類における最近の進歩の中心となっています。 ただし … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | From Coarse to Fine: Efficient Training for Audio Spectrogram Transformers はコメントを受け付けていません

Towards General-Purpose Text-Instruction-Guided Voice Conversion

要約 この論文では、「深いトーンでゆっくり発音する」または「元気な少年のような声 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Towards General-Purpose Text-Instruction-Guided Voice Conversion はコメントを受け付けていません

StemGen: A music generation model that listens

要約 深層学習技術を使用した音楽オーディオのエンドツーエンド生成は、最近爆発的に … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | StemGen: A music generation model that listens はコメントを受け付けていません

MCMChaos: Improvising Rap Music with MCMC Methods and Chaos Theory

要約 先行研究で作成されたラップ音楽のトランスクリプションに基づく新しいフリース … 続きを読む

カテゴリー: cs.CL, cs.HC, cs.SD, eess.AS | MCMChaos: Improvising Rap Music with MCMC Methods and Chaos Theory はコメントを受け付けていません

Translatotron 3: Speech to Speech Translation with Monolingual Data

要約 この論文では、マスクされたオートエンコーダ、教師なし埋め込みマッピング、お … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Translatotron 3: Speech to Speech Translation with Monolingual Data はコメントを受け付けていません