-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
On the Behavior of Intrusive and Non-intrusive Speech Enhancement Metrics in Predictive and Generative Settings
要約 ディープスピーチエンハンスメントの分野は、その誕生以来、スペクトル マッピ … 続きを読む
Multiple output samples for each input in a single-output Gaussian process
要約 標準のガウス プロセス (GP) では、トレーニング セット内の入力ごとに … 続きを読む
Pre-training for Speech Translation: CTC Meets Optimal Transport
要約 音声とテキストのモダリティ間のギャップは、音声からテキストへの翻訳 (ST … 続きを読む
N-Shot Benchmarking of Whisper on Diverse Arabic Speech Recognition
要約 最近開発された多言語の弱教師モデルである Whisper は、単言語設定と … 続きを読む
Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding
要約 Video-LLaMAは、Large Language Models(LL … 続きを読む
Task-Agnostic Structured Pruning of Speech Representation Models
要約 Wav2vec2、Hubert、WavLMなどの自己教師付き事前学習モデル … 続きを読む
Towards Robust FastSpeech 2 by Modelling Residual Multimodality
要約 FastSpeech 2をベースとした最新の非自己回帰的音声合成モデルによ … 続きを読む
End-to-end spoken language understanding using joint CTC loss and self-supervised, pretrained acoustic encoders
要約 音声言語理解(SLU)では、テキスト情報がないため、音声信号から直接意味を … 続きを読む
Speaker-specific Thresholding for Robust Imposter Identification in Unseen Speaker Recognition
要約 話者識別システムは、トレーニングやテストが行われる実験室の条件とは異な … 続きを読む
Enhancing the Unified Streaming and Non-streaming Model with Contrastive Learning
要約 統合されたストリーミングおよび非ストリーミング音声認識モデルは、その包括的 … 続きを読む