-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Detecting the Severity of Major Depressive Disorder from Speech: A Novel HARD-Training Methodology
要約 大うつ病性障害 (MDD) は、高い社会経済的コストを伴う世界的に一般的な … 続きを読む
ASR and Emotional Speech: A Word-Level Investigation of the Mutual Impact of Speech and Emotion Recognition
要約 音声感情認識 (SER) では、音声信号固有の変動性に対処するために、テキ … 続きを読む
VioLA: Unified Codec Language Models for Speech Recognition, Synthesis, and Translation
要約 最近の研究では、さまざまなモダリティのさまざまなタスクにわたって、モデル … 続きを読む
End-to-End Simultaneous Speech Translation with Differentiable Segmentation
要約 エンドツーエンド同時音声翻訳 (SimulST) は、ストリーミング音声入 … 続きを読む
Lattice-Free Sequence Discriminative Training for Phoneme-Based Neural Transducers
要約 最近、RNN トランスデューサーはさまざまな自動音声認識タスクで目覚ましい … 続きを読む
Unified Modeling of Multi-Talker Overlapped Speech Recognition and Diarization with a Sidecar Separator
要約 複数の話者の重複した音声は、音声認識と日記作成に重大な課題をもたらします。 … 続きを読む
LMs with a Voice: Spoken Language Modeling beyond Speech Tokens
要約 我々は、事前に訓練された言語モデル (LM) を適応させて音声継続を実行す … 続きを読む
AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment
要約 STS (Speech-to-Singing) 音声変換タスクは、音声録音 … 続きを読む
Vistaar: Diverse Benchmarks and Training Sets for Indian Language ASR
要約 新しい LLM ベースのユースケースを世界中の人々が利用できるようにするに … 続きを読む
AV-TranSpeech: Audio-Visual Robust Speech-to-Speech Translation
要約 音声直接翻訳 (S2ST) は、音声をある言語から別の言語に変換することを … 続きを読む