-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Task-Agnostic Structured Pruning of Speech Representation Models
要約 Wav2vec2、Hubert、WavLMなどの自己教師付き事前学習モデル … 続きを読む
Towards Robust FastSpeech 2 by Modelling Residual Multimodality
要約 FastSpeech 2をベースとした最新の非自己回帰的音声合成モデルによ … 続きを読む
BabySLM: language-acquisition-friendly benchmark of self-supervised spoken language models
要約 音声表現を学習するための自己教師技術は、人間のラベルを必要とせず、音声に触 … 続きを読む
End-to-end spoken language understanding using joint CTC loss and self-supervised, pretrained acoustic encoders
要約 音声言語理解(SLU)では、テキスト情報がないため、音声信号から直接意味を … 続きを読む
Speaker-specific Thresholding for Robust Imposter Identification in Unseen Speaker Recognition
要約 話者識別システムは、トレーニングやテストが行われる実験室の条件とは異な … 続きを読む
How Generative Spoken Language Modeling Encodes Noisy Speech: Investigation from Phonetics to Syntactics
要約 生成音声言語モデリング (GSLM) の音声モデリングの可能性を調べます。 … 続きを読む
Enhancing the Unified Streaming and Non-streaming Model with Contrastive Learning
要約 統合されたストリーミングおよび非ストリーミング音声認識モデルは、その包括的 … 続きを読む
SQuId: Measuring Speech Naturalness in Many Languages
要約 テキスト読み上げの研究の多くは人間による評価に依存しているため、多大なコス … 続きを読む
Adaptive Contextual Biasing for Transducer Based Streaming Speech Recognition
要約 追加のコンテキスト情報を組み込むことにより、ディープ バイアス手法が、パー … 続きを読む
UnDiff: Unsupervised Voice Restoration with Unconditional Diffusion Model
要約 この論文では、さまざまな音声逆タスクを解決できる拡散確率モデル UnDif … 続きを読む