-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
joint prediction and denoising for large-scale multilingual self-supervised learning
要約 多言語自己教師あり学習 (SSL) は、多くの言語を処理するために必要な費 … 続きを読む
Learning Speech Representation From Contrastive Token-Acoustic Pretraining
要約 最小教師あり音声合成 (TTS)、音声変換 (VC)、自動音声認識 (AS … 続きを読む
Late Audio-Visual Fusion for In-The-Wild Speaker Diarization
要約 話者ダイアライゼーションは、制約された音声についてはよく研究されていますが … 続きを読む
Speech collage: code-switched audio generation by collaging monolingual corpora
要約 コードスイッチング (CS) 用の効果的な自動音声認識 (ASR) システ … 続きを読む
Enhancing End-to-End Conversational Speech Translation Through Target Language Context Utilization
要約 より長いコンテキストを組み込むことは機械翻訳に利点があることが示されていま … 続きを読む
Single and Multi-Speaker Cloned Voice Detection: From Perceptual to Learned Features
要約 合成音声クローン技術は近年大幅な進歩を遂げており、さまざまな潜在的な危害を … 続きを読む
Exploring Speech Recognition, Translation, and Understanding with Discrete Speech Units: A Comparative Study
要約 通常、1 秒あたり数万のレートでサンプリングされる音声信号には冗長性が含ま … 続きを読む
A Deep Learning System for Domain-specific Speech Recognition
要約 マンマシンの音声インターフェイスにより、ますますインテリジェントになるマシ … 続きを読む
Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard Parameter Sharing
要約 エンドツーエンドの音声テキスト翻訳 (ST) における最近の研究では、テキ … 続きを読む