「cs.SD」カテゴリーアーカイブ

Efficient Adapter Finetuning for Tail Languages in Streaming Multilingual ASR

投稿日: 2024年1月18日作成者: jarxiv

要約エンドツーエンドの ASR モデルは、展開が容易であり、強力な基盤モデルな … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Multilingual DistilWhisper: Efficient Distillation of Multi-task Speech Models via Language-Specific Experts

投稿日: 2024年1月18日作成者: jarxiv

要約 Whisper は、99 言語をカバーするマルチタスクおよび多言語音声モデ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

SummaryMixing: A Linear-Complexity Alternative to Self-Attention for Speech Recognition and Understanding

投稿日: 2024年1月18日作成者: jarxiv

要約現代の音声処理システムは自己注意に依存しています。残念ながら、自己注意を … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

T-FOLEY: A Controllable Waveform-Domain Diffusion Model for Temporal-Event-Guided Foley Sound Synthesis

投稿日: 2024年1月18日作成者: jarxiv

要約フォーリーサウンド、つまりビデオと同時に挿入されるオーディオコンテンツ … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS, eess.SP | コメントを受け付けていません

An Explainable Proxy Model for Multiabel Audio Segmentation

投稿日: 2024年1月18日作成者: jarxiv

要約オーディオ信号のセグメンテーションは、自動オーディオインデックス作成の重 … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS, eess.SP | コメントを受け付けていません

From Coarse to Fine: Efficient Training for Audio Spectrogram Transformers

投稿日: 2024年1月17日作成者: jarxiv

要約トランスは、オーディオ分類における最近の進歩の中心となっています。ただし … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Towards General-Purpose Text-Instruction-Guided Voice Conversion

投稿日: 2024年1月17日作成者: jarxiv

要約この論文では、「深いトーンでゆっくり発音する」または「元気な少年のような声 … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

StemGen: A music generation model that listens

投稿日: 2024年1月17日作成者: jarxiv

要約深層学習技術を使用した音楽オーディオのエンドツーエンド生成は、最近爆発的に … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

MCMChaos: Improvising Rap Music with MCMC Methods and Chaos Theory

投稿日: 2024年1月17日作成者: jarxiv

要約先行研究で作成されたラップ音楽のトランスクリプションに基づく新しいフリース … 続きを読む →

カテゴリー: cs.CL, cs.HC, cs.SD, eess.AS | コメントを受け付けていません

Translatotron 3: Speech to Speech Translation with Monolingual Data

投稿日: 2024年1月17日作成者: jarxiv

要約この論文では、マスクされたオートエンコーダ、教師なし埋め込みマッピング、お … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

Efficient Adapter Finetuning for Tail Languages in Streaming Multilingual ASR

Multilingual DistilWhisper: Efficient Distillation of Multi-task Speech Models via Language-Specific Experts

SummaryMixing: A Linear-Complexity Alternative to Self-Attention for Speech Recognition and Understanding

T-FOLEY: A Controllable Waveform-Domain Diffusion Model for Temporal-Event-Guided Foley Sound Synthesis

An Explainable Proxy Model for Multiabel Audio Segmentation

From Coarse to Fine: Efficient Training for Audio Spectrogram Transformers

Towards General-Purpose Text-Instruction-Guided Voice Conversion

StemGen: A music generation model that listens

MCMChaos: Improvising Rap Music with MCMC Methods and Chaos Theory

Translatotron 3: Speech to Speech Translation with Monolingual Data

最近の投稿

最近のコメント

アーカイブ

カテゴリー