-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
Can Generative Large Language Models Perform ASR Error Correction?
要約 ASR エラー修正は、音声認識システムの後処理の重要な部分として機能し続け … 続きを読む
VampNet: Music Generation via Masked Acoustic Token Modeling
要約 音楽の合成、圧縮、修復、バリエーションに対するマスクされた音響トークン モ … 続きを読む
Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos
要約 私たちは、自己中心的なビデオにおける空間的な視聴覚対応に基づいて表現を学習 … 続きを読む
Roman Numeral Analysis with Graph Neural Networks: Onset-wise Predictions from Note-wise Features
要約 ローマ数字分析は、調性音楽のコードとその機能的コンテキストを特定する重要な … 続きを読む
ESPnet-ST-v2: Multipurpose Spoken Language Translation Toolkit
要約 ESPnet-ST-v2 は、音声言語翻訳コミュニティの関心の拡大によって … 続きを読む
Gammatonegram Representation for End-to-End Dysarthric Speech Processing Tasks: Speech Recognition, Speaker Identification, and Intelligibility Assessment
要約 構音障害は、人間の音声システムに障害を引き起こし、音声の質と明瞭度を低下さ … 続きを読む
Token-Level Serialized Output Training for Joint Streaming ASR and ST Leveraging Textual Alignments
要約 実際のアプリケーションでは、特に増分生成が必要なストリーミング シナリオで … 続きを読む
WACO: Word-Aligned Contrastive Learning for Speech Translation
要約 エンドツーエンド音声翻訳 (E2E ST) は、ソース音声をターゲット テ … 続きを読む
LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT
要約 LyricWhiz は、ロックやメタルなどの難しいジャンルでも、さまざまな … 続きを読む
The Relationship Between Speech Features Changes When You Get Depressed: Feature Correlations for Improving Speed and Performance of Depression Detection
要約 この研究は、うつ病によって音声から抽出された特徴間の相関が変化することを示 … 続きを読む