-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Scenario of Use Scheme: Threat Model Specification for Speaker Privacy Protection in the Medical Domain
要約 病気の検出や監視のために音声録音が頻繁に使用されるようになり、プライバシー … 続きを読む
Facial Expression-Enhanced TTS: Combining Face Representation and Emotion Intensity for Adaptive Speech
要約 FEIM-TTS は、顔画像に合わせて感情の強さによって調整され、感情表現 … 続きを読む
Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models
要約 ビッグデータと大規模言語モデル時代の到来により、ゼロショットでパーソナライ … 続きを読む
Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models
要約 ビッグデータと大規模言語モデル時代の到来により、ゼロショットでパーソナライ … 続きを読む
ASR Benchmarking: Need for a More Representative Conversational Dataset
要約 自動音声認識 (ASR) システムは、LibriSpeech や Fleu … 続きを読む
Low Frame-rate Speech Codec: a Codec Designed for Fast High-quality Speech LLM Training and Inference
要約 大規模言語モデル (LLM) は、オーディオを個別のトークンに変換するオー … 続きを読む
Pareto Data Framework: Steps Towards Resource-Efficient Decision Making Using Minimum Viable Data (MVD)
要約 このペーパーでは、組み込みシステム、モバイル デバイス、モノのインターネッ … 続きを読む
Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models
要約 ビッグデータと大規模言語モデル時代の到来により、ゼロショットでパーソナライ … 続きを読む
HLTCOE JHU Submission to the Voice Privacy Challenge 2024
要約 我々は、kNN-VC 法や WavLM 音声変換法などの音声変換ベースのシ … 続きを読む
LC-Protonets: Multi-label Few-shot learning for world music audio tagging
要約 我々は、モデルを少数の利用可能な例のみに基づいて新しいクラスに一般化する必 … 続きを読む