-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
The Effect of Perceptual Metrics on Music Representation Learning for Genre Classification
要約 自然信号の主観的な品質は、客観的な知覚指標で近似できます。 人間の観察者の … 続きを読む
Evaluation of state-of-the-art ASR Models in Child-Adult Interactions
要約 臨床現場で子供と大人の会話を確実に書き起こす能力は、自閉症スペクトラム障害 … 続きを読む
VoxHakka: A Dialectally Diverse Multi-speaker Text-to-Speech System for Taiwanese Hakka
要約 この文書では、台湾で話されている非常にリソースが不足している言語である台湾 … 続きを読む
A Modular-based Strategy for Mitigating Gradient Conflicts in Simultaneous Speech Translation
要約 同時音声翻訳 (SimulST) では、ストリーミング音声入力を継続的に処 … 続きを読む
StyleSinger 2: Zero-Shot Singing Voice Synthesis with Style Transfer and Multi-Level Style Control
要約 スタイルトランスファーとスタイルコントロールを備えたゼロショット歌声合成( … 続きを読む
tinyCLAP: Distilling Constrastive Language-Audio Pretrained Models
要約 Contrastive Language-Audio Pretrainin … 続きを読む
Bridging Speech and Text: Enhancing ASR with Pinyin-to-Character Pre-training in LLMs
要約 大規模言語モデル (LLM) と事前トレーニングされた音声モデルの統合によ … 続きを読む
Learn and Don’t Forget: Adding a New Language to ASR Foundation Models
要約 Foundation ASR モデルは多くの場合、多くの言語をサポートしま … 続きを読む
Beyond the binary: Limitations and possibilities of gender-related speech technology research
要約 この論文は、2013 年から 2023 年までに ISCA Intersp … 続きを読む
Leveraging Mixture of Experts for Improved Speech Deepfake Detection
要約 音声ディープフェイクは、個人のセキュリティとコンテンツの信頼性に重大な … 続きを読む