-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Measuring the Accuracy of Automatic Speech Recognition Solutions
要約 聴覚障害者および聴覚障害者 (DHH) の人々にとって、キャプションは不可 … 続きを読む
SALSA: Speedy ASR-LLM Synchronous Aggregation
要約 事前トレーニングされた LLM を利用して、特に低リソース言語の ASR … 続きを読む
Innovative Speech-Based Deep Learning Approaches for Parkinson’s Disease Classification: A Systematic Review
要約 パーキンソン病 (PD) は世界で 2 番目に蔓延している神経変性疾患であ … 続きを読む
Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming
要約 言語モデルの最近の進歩は大幅な進歩を遂げています。 GPT-4o は新たな … 続きを読む
Easy, Interpretable, Effective: openSMILE for voice deepfake detection
要約 この論文では、音声の信頼性とディープフェイク検出の分野における事実上の標準 … 続きを読む
Multi-modal Adversarial Training for Zero-Shot Voice Cloning
要約 与えられたテキストから音声を再構築するようにトレーニングされたテキスト読み … 続きを読む
SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models
要約 Text-to-speech (TTS) を大規模なデータセットにスケーリ … 続きを読む
Beyond Levenshtein: Leveraging Multiple Algorithms for Robust Word Error Rate Computations And Granular Error Classifications
要約 単語誤り率 (WER) は、自動音声認識 (ASR) の精度の一般的な尺度 … 続きを読む
Easy, Interpretable, Effective: openSMILE for voice deepfake detection
要約 この論文では、音声の信頼性とディープフェイク検出の分野における事実上の標準 … 続きを読む
ModalityMirror: Improving Audio Classification in Modality Heterogeneity Federated Learning with Multimodal Distillation
要約 マルチモーダル Federated Learning では、クライアント … 続きを読む