-
最近の投稿
- Grasp EveryThing (GET): 1-DoF, 3-Fingered Gripper with Tactile Sensing for Robust Grasping
- Neural Inertial Odometry from Lie Events
- Physical synchronization of soft self-oscillating limbs for fast and autonomous locomotion
- CRADMap: Applied Distributed Volumetric Mapping with 5G-Connected Multi-Robots and 4D Radar Perception
- Learning Rock Pushability on Rough Planetary Terrain
-
最近のコメント
表示できるコメントはありません。 cs.AI (38176) cs.CL (28850) cs.CV (43741) cs.HC (2915) cs.LG (43106) cs.RO (22722) cs.SY (3490) eess.IV (5071) eess.SY (3482) stat.ML (5612)
「cs.SD」カテゴリーアーカイブ
Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models
要約 ビッグデータと大規模言語モデル時代の到来により、ゼロショットでパーソナライ … 続きを読む
Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models
要約 ビッグデータと大規模言語モデル時代の到来により、ゼロショットでパーソナライ … 続きを読む
ASR Benchmarking: Need for a More Representative Conversational Dataset
要約 自動音声認識 (ASR) システムは、LibriSpeech や Fleu … 続きを読む
Low Frame-rate Speech Codec: a Codec Designed for Fast High-quality Speech LLM Training and Inference
要約 大規模言語モデル (LLM) は、オーディオを個別のトークンに変換するオー … 続きを読む
Pareto Data Framework: Steps Towards Resource-Efficient Decision Making Using Minimum Viable Data (MVD)
要約 このペーパーでは、組み込みシステム、モバイル デバイス、モノのインターネッ … 続きを読む
Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models
要約 ビッグデータと大規模言語モデル時代の到来により、ゼロショットでパーソナライ … 続きを読む
LC-Protonets: Multi-label Few-shot learning for world music audio tagging
要約 我々は、モデルを少数の利用可能な例のみに基づいて新しいクラスに一般化する必 … 続きを読む
Learning Spatially-Aware Language and Audio Embedding
要約 人間は、不正確な自然言語記述が与えられたとしても、音のシーンを思い描くこと … 続きを読む
Spontaneous Informal Speech Dataset for Punctuation Restoration
要約 現在、句読点復元モデルは、ほぼ完全に構造化され、スクリプト化されたコーパス … 続きを読む
WER We Stand: Benchmarking Urdu ASR Models
要約 このペーパーでは、ウルドゥー語自動音声認識 (ASR) モデルの包括的な評 … 続きを読む