-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
Neural Diarization with Non-autoregressive Intermediate Attractors
要約 エンコーダ-デコーダベースのアトラクタ (EDA) を使用したエンド ツー … 続きを読む
Alternate Intermediate Conditioning with Syllable-level and Character-level Targets for Japanese ASR
要約 エンドツーエンドの自動音声認識により、入力音声が文字に直接マッピングされま … 続きを読む
Accidental Learners: Spoken Language Identification in Multilingual Self-Supervised Models
要約 このホワイト ペーパーでは、多言語の事前トレーニング パラダイムで Con … 続きを読む
Neural Transducer Training: Reduced Memory Consumption with Sample-wise Computation
要約 ニューラル トランスデューサーは、自動音声認識 (ASR) のエンド ツー … 続きを読む
LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders
要約 オーディオビジュアルスピーチエンハンスメントは、オーディオ自体だけでなく、 … 続きを読む
Clinical BERTScore: An Improved Measure of Automatic Speech Recognition Performance in Clinical Settings
要約 医療コンテキストにおける自動音声認識 (ASR) には、時間の節約、コスト … 続きを読む
Distribution Preserving Source Separation With Time Frequency Predictive Models
要約 最先端の方法の知覚的な欠点に対処することを目的とした、分布を維持するソース … 続きを読む
Temporal Modeling Matters: A Novel Temporal Emotional Modeling Approach for Speech Emotion Recognition
要約 音声感情認識 (SER) は、音声信号から人間の感情と感情状態を推測するこ … 続きを読む
Clinical BERTScore: An Improved Measure of Automatic Speech Recognition Performance in Clinical Settings
要約 医療コンテキストにおける自動音声認識 (ASR) には、時間の節約、コスト … 続きを読む
MIXPGD: Hybrid Adversarial Training for Speech Recognition Systems
要約 ディープ ニューラル ネットワークに基づく自動音声認識 (ASR) システ … 続きを読む