-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
Debiased Automatic Speech Recognition for Dysarthric Speech via Sample Reweighting with Sample Affinity Test
要約 深層学習に基づく自動音声認識システムは、主に経験的リスク最小化 (ERM) … 続きを読む
BA-SOT: Boundary-Aware Serialized Output Training for Multi-Talker ASR
要約 最近提案されたシリアル化出力トレーニング (SOT) は、特殊なトークンで … 続きを読む
A Stutter Seldom Comes Alone — Cross-Corpus Stuttering Detection as a Multi-label Problem
要約 吃音の検出と分類の研究のほとんどは、吃音を多クラスの分類問題、または流暢性 … 続きを読む
Towards single integrated spoofing-aware speaker verification embeddings
要約 この研究は、2 つの側面を満たす単一の統合されたなりすまし対応話者検証 ( … 続きを読む
NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers
要約 Text-to-Speech(TTS)を大規模で複数の話者が存在する自然環 … 続きを読む
Unsupervised Melody-to-Lyric Generation
要約 メロディーから歌詞への自動生成は、指定されたメロディーに合わせて歌詞を生成 … 続きを読む
Make-A-Voice: Unified Voice Synthesis With Discrete Representation
要約 音声合成のさまざまなアプリケーションは、出力として「音声」を生成するという … 続きを読む
OverFlow: Putting flows on top of neural transducers for better TTS
要約 ニューラル HMM は、テキスト読み上げにおけるシーケンス間モデリング用に … 続きを読む
Can We Trust Explainable AI Methods on ASR? An Evaluation on Phoneme Recognition
要約 Explainable AI (XAI) 技術は、画像分類や自然言語処理な … 続きを読む