-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
Simple and Controllable Music Generation
要約 私たちは条件付き音楽生成のタスクに取り組みます。 圧縮された個別の音楽表現 … 続きを読む
Arabic Dysarthric Speech Recognition Using Adversarial and Signal-Based Augmentation
要約 自動音声認識 (ASR) は大幅に進歩しましたが、最先端の ASR システ … 続きを読む
Label Aware Speech Representation Learning For Language Identification
要約 言語認識などの非意味論的タスクに対する音声表現学習アプローチでは、分類子モ … 続きを読む
Zambezi Voice: A Multilingual Speech Corpus for Zambian Languages
要約 この作品では、ザンビア語のオープンソース多言語音声リソースである Zamb … 続きを読む
Handling the Alignment for Wake Word Detection: A Comparison Between Alignment-Based, Alignment-Free and Hybrid Approaches
要約 ウェイク ワード検出は、ほとんどのインテリジェント ホームおよびポータブル … 続きを読む
Self-supervised Predictive Coding Models Encode Speaker and Phonetic Information in Orthogonal Subspaces
要約 自己教師あり音声表現は話者情報と音声情報の両方をエンコードすることが知られ … 続きを読む
Topological Data Analysis for Speech Processing
要約 トポロジカル データ分析 (TDA) を音声分類問題と事前学習済み音声モデ … 続きを読む
GigaST: A 10,000-hour Pseudo Speech Translation Corpus
要約 本稿では、大規模な擬似音声翻訳(ST)コーパスであるGigaSTを紹介しま … 続きを読む
MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training
要約 自己教師あり学習 (SSL) は、視覚、テキスト、および音声の分野の大規模 … 続きを読む