-
最近の投稿
- Multimodal Active Measurement for Human Mesh Recovery in Close Proximity
- An Algorithm for Distributed Computation of Reachable Sets for Multi-Agent Systems
- Meta-Learning Augmented MPC for Disturbance-Aware Motion Planning and Control of Quadrotors
- Solving Multi-Goal Robotic Tasks with Decision Transformer
- Context-Aware Command Understanding for Tabletop Scenarios
-
最近のコメント
表示できるコメントはありません。 cs.AI (27848) cs.CL (21045) cs.CR (2180) cs.CV (34554) cs.LG (32592) cs.RO (15968) cs.SY (2478) eess.IV (4238) eess.SY (2472) stat.ML (4364)
「cs.SD」カテゴリーアーカイブ
Efficient Adapter Finetuning for Tail Languages in Streaming Multilingual ASR
要約 エンドツーエンドの ASR モデルは、展開が容易であり、強力な基盤モデルな … 続きを読む
Multilingual DistilWhisper: Efficient Distillation of Multi-task Speech Models via Language-Specific Experts
要約 Whisper は、99 言語をカバーするマルチタスクおよび多言語音声モデ … 続きを読む
SummaryMixing: A Linear-Complexity Alternative to Self-Attention for Speech Recognition and Understanding
要約 現代の音声処理システムは自己注意に依存しています。 残念ながら、自己注意を … 続きを読む
T-FOLEY: A Controllable Waveform-Domain Diffusion Model for Temporal-Event-Guided Foley Sound Synthesis
要約 フォーリー サウンド、つまりビデオと同時に挿入されるオーディオ コンテンツ … 続きを読む
An Explainable Proxy Model for Multiabel Audio Segmentation
要約 オーディオ信号のセグメンテーションは、自動オーディオ インデックス作成の重 … 続きを読む
From Coarse to Fine: Efficient Training for Audio Spectrogram Transformers
要約 トランスは、オーディオ分類における最近の進歩の中心となっています。 ただし … 続きを読む
Towards General-Purpose Text-Instruction-Guided Voice Conversion
要約 この論文では、「深いトーンでゆっくり発音する」または「元気な少年のような声 … 続きを読む
StemGen: A music generation model that listens
要約 深層学習技術を使用した音楽オーディオのエンドツーエンド生成は、最近爆発的に … 続きを読む
MCMChaos: Improvising Rap Music with MCMC Methods and Chaos Theory
要約 先行研究で作成されたラップ音楽のトランスクリプションに基づく新しいフリース … 続きを読む