-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming
要約 言語モデルの最近の進歩は大幅な進歩を遂げています。 GPT-4o は新たな … 続きを読む
Towards Efficient Modelling of String Dynamics: A Comparison of State Space and Koopman based Deep Learning Methods
要約 この論文では、線形および非線形の両方の硬いストリングのダイナミクスをモデル … 続きを読む
カテゴリー: cs.LG, cs.SD, eess.AS, physics.comp-ph
Towards Efficient Modelling of String Dynamics: A Comparison of State Space and Koopman based Deep Learning Methods はコメントを受け付けていません
Measuring the Accuracy of Automatic Speech Recognition Solutions
要約 聴覚障害者および聴覚障害者 (DHH) の人々にとって、キャプションは不可 … 続きを読む
SALSA: Speedy ASR-LLM Synchronous Aggregation
要約 事前トレーニングされた LLM を利用して、特に低リソース言語の ASR … 続きを読む
Innovative Speech-Based Deep Learning Approaches for Parkinson’s Disease Classification: A Systematic Review
要約 パーキンソン病 (PD) は世界で 2 番目に蔓延している神経変性疾患であ … 続きを読む
Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming
要約 言語モデルの最近の進歩は大幅な進歩を遂げています。 GPT-4o は新たな … 続きを読む
Easy, Interpretable, Effective: openSMILE for voice deepfake detection
要約 この論文では、音声の信頼性とディープフェイク検出の分野における事実上の標準 … 続きを読む
Multi-modal Adversarial Training for Zero-Shot Voice Cloning
要約 与えられたテキストから音声を再構築するようにトレーニングされたテキスト読み … 続きを読む
SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models
要約 Text-to-speech (TTS) を大規模なデータセットにスケーリ … 続きを読む
Beyond Levenshtein: Leveraging Multiple Algorithms for Robust Word Error Rate Computations And Granular Error Classifications
要約 単語誤り率 (WER) は、自動音声認識 (ASR) の精度の一般的な尺度 … 続きを読む