-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
Automated Audio Captioning and Language-Based Audio Retrieval
要約 このプロジェクトには、(1) 自動音声キャプションと (2) 言語ベースの … 続きを読む
Understanding and Bridging the Modality Gap for Speech Translation
要約 (テキスト) 機械翻訳 (MT) データを活用して、より優れたエンドツーエ … 続きを読む
Back Translation for Speech-to-text Translation Without Transcripts
要約 エンドツーエンドの音声からテキストへの翻訳 (ST) の成功は、多くの場合 … 続きを読む
CryCeleb: A Speaker Verification Dataset Based on Infant Cry Sounds
要約 本論文では、Ubenwa CryCelebデータセット(乳児の泣き声のラベ … 続きを読む
Benchmarks and leaderboards for sound demixing tasks
要約 音楽デミックスとは、与えられた単一のオーディオ信号から、ドラム、ベース、ボ … 続きを読む
Device-Robust Acoustic Scene Classification via Impulse Response Augmentation
要約 音声分類モデルにおいて、様々な録音機器への汎化能力は重要な性能要素である。 … 続きを読む
Better speech synthesis through scaling
要約 近年、画像生成の分野は、自己回帰変換器やDDPMの応用により、革命的な変化 … 続きを読む
Investigating the Sensitivity of Automatic Speech Recognition Systems to Phonetic Variation in L2 Englishes
要約 自動音声認識(ASR)システムは、学習させた音声と類似した音声に対して最高 … 続きを読む
Improving Cascaded Unsupervised Speech Translation with Denoising Back-translation
要約 音声翻訳モデルの多くはパラレルデータに大きく依存しており、特に低リソース言 … 続きを読む
Streaming Joint Speech Recognition and Disfluency Detection
要約 失語症検出は、主に音声認識の後処理として、パイプラインアプローチで解決され … 続きを読む