-
最近の投稿
- KISS-Matcher: Fast and Robust Point Cloud Registration Revisited
- Unpacking Failure Modes of Generative Policies: Runtime Monitoring of Consistency and Progress
- Mode-GS: Monocular Depth Guided Anchored 3D Gaussian Splatting for Robust Ground-View Scene Rendering
- A Universal Formulation for Path-Parametric Planning and Control
- Next Best Sense: Guiding Vision and Touch with FisherRF for 3D Gaussian Splatting
-
最近のコメント
表示できるコメントはありません。 cs.AI (27775) cs.CL (20990) cs.CR (2176) cs.CV (34489) cs.LG (32518) cs.RO (15916) cs.SY (2472) eess.IV (4231) eess.SY (2466) stat.ML (4356)
「cs.SD」カテゴリーアーカイブ
More than words: Advancements and challenges in speech recognition for singing
要約 この論文では、標準の音声認識とは明らかに異なる領域である、歌うための音声認 … 続きを読む
M&M: Multimodal-Multitask Model Integrating Audiovisual Cues in Cognitive Load Assessment
要約 この論文では、認知負荷評価 (CLA) 用の AVCAffe データセット … 続きを読む
Non-verbal information in spontaneous speech — towards a new framework of analysis
要約 音声内の非言語信号は韻律によってエンコードされ、会話の動作から態度、感情に … 続きを読む
Improving Acoustic Word Embeddings through Correspondence Training of Self-supervised Speech Representations
要約 音響単語埋め込み (AWE) は、話し言葉のベクトル表現です。 AWE を … 続きを読む
StoRM: A Diffusion-based Stochastic Regeneration Model for Speech Enhancement and Dereverberation
要約 拡散モデルは、音声強調に対する予測アプローチと生成アプローチの間のパフォー … 続きを読む
Boosting keyword spotting through on-device learnable user speech characteristics
要約 常時稼働の TinyML 制約のあるアプリケーション用のキーワード スポッ … 続きを読む
An Audio-textual Diffusion Model For Converting Speech Signals Into Ultrasound Tongue Imaging Data
要約 音響-調音反転 (AAI) は、音声を超音波舌画像 (UTI) データなど … 続きを読む
Multilingual DistilWhisper: Efficient Distillation of Multi-task Speech Models via Language-Specific Experts
要約 Whisper は、99 言語をカバーするマルチタスクおよび多言語音声モデ … 続きを読む
Spectrogram-Based Detection of Auto-Tuned Vocals in Music Recordings
要約 音楽制作とオーディオ処理の分野では、オートチューンとしても知られる歌声の自 … 続きを読む
Align With Purpose: Optimize Desired Properties in CTC Models with a General Plug-and-Play Framework
要約 コネクショニスト時間分類 (CTC) は、教師ありシーケンスツーシーケンス … 続きを読む