-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
Adapting Automatic Speech Recognition for Accented Air Traffic Control Communications
要約 航空交通管制(ATC)における効果的なコミュニケーションは、航空の安全性を … 続きを読む
Optimizing Multi-Stuttered Speech Classification: Leveraging Whisper’s Encoder for Efficient Parameter Reduction in Automated Assessment
要約 st音の自動分類は、音声言語病理学者に支援を提供するタイムリーな評価に大き … 続きを読む
Combining TF-GridNet and Mixture Encoder for Continuous Speech Separation for Meeting Transcription
要約 自動音声認識(ASR)の多くの実際のアプリケーションでは、重複した音声の処 … 続きを読む
NeuroVoz: a Castillian Spanish corpus of parkinsonian speech
要約 音声によるパーキンソン病(PD)のスクリーニングは、異なる言語で公開されて … 続きを読む
Exploring Gender Disparities in Automatic Speech Recognition Technology
要約 この研究では、人口統計の従来の調査を超えて、性別全体の自動音声認識(ASR … 続きを読む
Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation
要約 最近、拡散モデルはモノチャネルオーディオ生成で大きな成功を収めています。 … 続きを読む
GCDance: Genre-Controlled 3D Full Body Dance Generation Driven By Music
要約 音楽から高品質のフルボディダンスシーケンスを生成することは、ジャンル固有の … 続きを読む
From Vision to Sound: Advancing Audio Anomaly Detection with Vision-Based Algorithms
要約 視覚異常検出(VAD)の最近の進歩により、事前に訓練された特徴抽出器によっ … 続きを読む
Baichuan-Audio: A Unified Framework for End-to-End Speech Interaction
要約 オーディオの理解と生成をシームレスに統合するエンドツーエンドのオーディオ大 … 続きを読む
ESPnet-SpeechLM: An Open Speech Language Model Toolkit
要約 Speech Language Models(SpeechLMS)および音 … 続きを読む