-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
ADAPTERMIX: Exploring the Efficacy of Mixture of Adapters for Low-Resource TTS Adaptation
要約 広く話されていない言語や、トレーニング データで十分に表現されていないアク … 続きを読む
Text-to-Audio Generation using Instruction-Tuned LLM and Latent Diffusion Model
要約 最近の大規模言語モデル (LLM) の巨大なスケールにより、命令ベースおよ … 続きを読む
Leveraging characteristics of the output probability distribution for identifying adversarial audio examples
要約 敵対的攻撃は、機械学習ベースの自動音声認識 (ASR) システムに対するセ … 続きを読む
DisfluencyFixer: A tool to enhance Language Learning through Speech To Speech Disfluency Correction
要約 会話の音声は多くの場合、音声計画からの逸脱で構成され、流暢な発話を生成し、 … 続きを読む
UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units
要約 すべてのコンポーネントを共同で最適化できる直接音声音声変換 (S2ST) … 続きを読む
Detecting the Severity of Major Depressive Disorder from Speech: A Novel HARD-Training Methodology
要約 大うつ病性障害 (MDD) は、高い社会経済的コストを伴う世界的に一般的な … 続きを読む
ASR and Emotional Speech: A Word-Level Investigation of the Mutual Impact of Speech and Emotion Recognition
要約 音声感情認識 (SER) では、音声信号固有の変動性に対処するために、テキ … 続きを読む
VioLA: Unified Codec Language Models for Speech Recognition, Synthesis, and Translation
要約 最近の研究では、さまざまなモダリティのさまざまなタスクにわたって、モデル … 続きを読む
End-to-End Simultaneous Speech Translation with Differentiable Segmentation
要約 エンドツーエンド同時音声翻訳 (SimulST) は、ストリーミング音声入 … 続きを読む