-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Pre-Finetuning for Few-Shot Emotional Speech Recognition
要約 音声モデルは、多くの分類タスクで個々の話者に過剰適合することが長い間知られ … 続きを読む
UniFLG: Unified Facial Landmark Generator from Text or Speech
要約 話し顔の生成は、その幅広い適用性のために広く研究されてきました。 会話面の … 続きを読む
Investigating the effect of domain selection on automatic speech recognition performance: a case study on Bangladeshi Bangla
要約 データ駆動型の自然言語処理システムのパフォーマンスは、コーパスの品質に左右 … 続きを読む
Exploring Self-supervised Pre-trained ASR Models For Dysarthric and Elderly Speech Recognition
要約 障害のある高齢者の発話の自動認識は、そのようなデータを大量に収集することが … 続きを読む
Low latency transformers for speech processing
要約 トランスフォーマーは、最新のニューラル ネットワークで広く使用されているビ … 続きを読む
Cross-Modal Mutual Learning for Cued Speech Recognition
要約 Automatic Cued Speech Recognition (AC … 続きを読む
Dynamic Kernels and Channel Attention for Low Resource Speaker Verification
要約 最先端の話者検証フレームワークは通常、検証パフォーマンスを向上させるために … 続きを読む
Duration-aware pause insertion using pre-trained language model for multi-speaker text-to-speech
要約 一時停止の挿入は、フレーズ区切り予測およびフレージングとも呼ばれ、TTS … 続きを読む
Using Auxiliary Tasks In Multimodal Fusion Of Wav2vec 2.0 And BERT For Multimodal Emotion Recognition
要約 データの欠如とマルチモーダル融合の難しさは、マルチモーダル感情認識 (ME … 続きを読む
Analysing Discrete Self Supervised Speech Representation for Spoken Language Modeling
要約 この作業は、Generative Spoken Language Mode … 続きを読む