-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
IR-UWB Radar-Based Contactless Silent Speech Recognition of Vowels, Consonants, Words, and Phrases
要約 無声音声認識 (SSR) については、いくつかのセンシング技術が提案されて … 続きを読む
Phoneme-aware Encoding for Prefix-tree-based Contextual ASR
要約 音声認識アプリケーションでは、固有名詞などの文脈固有の珍しい単語を認識する … 続きを読む
Leveraging Language ID to Calculate Intermediate CTC Loss for Enhanced Code-Switching Speech Recognition
要約 近年、エンドツーエンドの音声認識は、従来の自動音声認識モデルの音響、発音辞 … 続きを読む
HEAR: Hearing Enhanced Audio Response for Video-grounded Dialogue
要約 Video-grounded Dialogue (VGD) は、ビデオ、オ … 続きを読む
Dementia Assessment Using Mandarin Speech with an Attention-based Speech Recognition Encoder
要約 認知症の診断には一連の異なる検査方法が必要ですが、これは複雑で時間がかかり … 続きを読む
Generative Context-aware Fine-tuning of Self-supervised Speech Models
要約 特定の発話に対する自動音声認識や話し言葉の理解などのタスクを実行する場合、 … 続きを読む
STaR: Distilling Speech Temporal Relation for Lightweight Speech Self-Supervised Learning Models
要約 Transformer ベースの音声自己教師あり学習 (SSL) モデルは … 続きを読む
SER_AMPEL: a multi-source dataset for speech emotion recognition of Italian older adults
要約 この論文では、音声感情認識 (SER) 用のマルチソース データセットであ … 続きを読む
WikiMuTe: A web-sourced dataset of semantic descriptions for music audio
要約 自由形式のテキストと音楽を照合するマルチモーダル深層学習技術は、音楽情報検 … 続きを読む