-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
Evaluation of real-time transcriptions using end-to-end ASR models
要約 自動音声認識 (ASR) または Speech-to-text (STT) … 続きを読む
Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning
要約 最近、AI コミュニティは、大規模なマルチモーダル データセットを活用した … 続きを読む
Innovative Speech-Based Deep Learning Approaches for Parkinson’s Disease Classification: A Systematic Review
要約 パーキンソン病 (PD) は世界で 2 番目に蔓延している神経変性疾患であ … 続きを読む
Enhancing Code-Switching Speech Recognition with LID-Based Collaborative Mixture of Experts Model
要約 異なる言語間の音声の類似性をモデル化することは本質的に難しいため、コードス … 続きを読む
LAST: Language Model Aware Speech Tokenization
要約 音声トークン化は音声言語モデル (LM) の基礎として機能し、音声言語モデ … 続きを読む
Raw Speech Enhancement with Deep State Space Modeling
要約 エンドツーエンド方式でオンラインの生の音声を効率的に強化するために構成され … 続きを読む
Temporal Order Preserved Optimal Transport-based Cross-modal Knowledge Transfer Learning for ASR
要約 言語知識を事前学習済み言語モデル (PLM) から音響モデルに転送すると、 … 続きを読む
Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Cord Paralysis
要約 この論文では、音声データとビデオ データを組み合わせて、臨床評価のために喉 … 続きを読む
Serialized Speech Information Guidance with Overlapped Encoding Separation for Multi-Speaker Automatic Speech Recognition
要約 シリアル化出力トレーニング (SOT) は、マルチ話者の自動音声認識 (A … 続きを読む
Segment Beyond View: Handling Partially Missing Modality for Audio-Visual Semantic Segmentation
要約 拡張現実 (AR) デバイスは、著名なモバイル インタラクション プラット … 続きを読む