-
最近の投稿
- Topological mapping for traversability-aware long-range navigation in off-road terrain
- Equality Constrained Diffusion for Direct Trajectory Optimization
- Learning-Based Autonomous Navigation, Benchmark Environments and Simulation Framework for Endovascular Interventions
- Language Supervised Human Action Recognition with Salient Fusion: Construction Worker Action Recognition as a Use Case
- Bi-Level Motion Imitation for Humanoid Robots
-
最近のコメント
表示できるコメントはありません。 cs.AI (27641) cs.CL (20879) cs.CR (2167) cs.CV (34375) cs.LG (32373) cs.RO (15816) cs.SY (2460) eess.IV (4221) eess.SY (2454) stat.ML (4339)
「cs.SD」カテゴリーアーカイブ
Leveraging Mixture of Experts for Improved Speech Deepfake Detection
要約 音声ディープフェイクは、個人のセキュリティとコンテンツの信頼性に重大な … 続きを読む
Scenario of Use Scheme: Threat Model Specification for Speaker Privacy Protection in the Medical Domain
要約 病気の検出や監視のために音声録音が頻繁に使用されるようになり、プライバシー … 続きを読む
Facial Expression-Enhanced TTS: Combining Face Representation and Emotion Intensity for Adaptive Speech
要約 FEIM-TTS は、顔画像に合わせて感情の強さによって調整され、感情表現 … 続きを読む
Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models
要約 ビッグデータと大規模言語モデル時代の到来により、ゼロショットでパーソナライ … 続きを読む
Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models
要約 ビッグデータと大規模言語モデル時代の到来により、ゼロショットでパーソナライ … 続きを読む
ASR Benchmarking: Need for a More Representative Conversational Dataset
要約 自動音声認識 (ASR) システムは、LibriSpeech や Fleu … 続きを読む
Low Frame-rate Speech Codec: a Codec Designed for Fast High-quality Speech LLM Training and Inference
要約 大規模言語モデル (LLM) は、オーディオを個別のトークンに変換するオー … 続きを読む
Pareto Data Framework: Steps Towards Resource-Efficient Decision Making Using Minimum Viable Data (MVD)
要約 このペーパーでは、組み込みシステム、モバイル デバイス、モノのインターネッ … 続きを読む
Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models
要約 ビッグデータと大規模言語モデル時代の到来により、ゼロショットでパーソナライ … 続きを読む
LC-Protonets: Multi-label Few-shot learning for world music audio tagging
要約 我々は、モデルを少数の利用可能な例のみに基づいて新しいクラスに一般化する必 … 続きを読む