-
最近の投稿
- BlabberSeg: Real-Time Embedded Open-Vocabulary Aerial Segmentation
- Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks
- Risk Assessment for Autonomous Landing in Urban Environments using Semantic Segmentation
- Configurable Embodied Data Generation for Class-Agnostic RGB-D Video Segmentation
- RPCBF: Constructing Safety Filters Robust to Model Error and Disturbances via Policy Control Barrier Functions
-
最近のコメント
表示できるコメントはありません。 cs.AI (28260) cs.CL (21356) cs.CR (2207) cs.CV (34912) cs.LG (33009) cs.RO (16270) cs.SY (2503) eess.IV (4251) eess.SY (2497) stat.ML (4424)
「eess.AS」カテゴリーアーカイブ
Distilling HuBERT with LSTMs via Decoupled Knowledge Distillation
要約 自己教師ありモデルの知識を圧縮するタスクには、多くの研究努力が注がれていま … 続きを読む
Training dynamic models using early exits for automatic speech recognition on resource-constrained devices
要約 推論時にニューラル モデルの計算負荷を動的に変更できることは、計算能力が限 … 続きを読む
Kid-Whisper: Towards Bridging the Performance Gap in Automatic Speech Recognition for Children VS. Adults
要約 Whisper に代表される自動音声認識 (ASR) システムの最近の進歩 … 続きを読む
Speeding Up Speech Synthesis In Diffusion Models By Reducing Data Distribution Recovery Steps Via Content Transfer
要約 拡散ベースのボコーダーは、サンプリング中に多くのステップが必要となるため、 … 続きを読む
Do learned speech symbols follow Zipf’s law?
要約 この研究では、深層学習を通じて学習された音声記号が、自然言語記号に似たジッ … 続きを読む
Watch the Speakers: A Hybrid Continuous Attribution Network for Emotion Recognition in Conversation With Emotion Disentanglement
要約 会話中の感情認識 (ERC) は、実用化の可能性が非常に高いため、自然言語 … 続きを読む
Hypr: A comprehensive study for ASR hypothesis revising with a reference corpus
要約 ディープラーニングの発展に伴い、自動音声認識 (ASR) は大幅に進歩しま … 続きを読む
Instruction-Following Speech Recognition
要約 従来のエンドツーエンドの自動音声認識 (ASR) モデルは、主に正確な文字 … 続きを読む
RECAP: Retrieval-Augmented Audio Captioning
要約 RECAP (REtrieval-Augmented Audio CAPt … 続きを読む