cs.SD」カテゴリーアーカイブ

More than words: Advancements and challenges in speech recognition for singing

要約 この論文では、標準の音声認識とは明らかに異なる領域である、歌うための音声認 … 続きを読む

カテゴリー: cs.CL, cs.IR, cs.LG, cs.SD, eess.AS | More than words: Advancements and challenges in speech recognition for singing はコメントを受け付けていません

M&M: Multimodal-Multitask Model Integrating Audiovisual Cues in Cognitive Load Assessment

要約 この論文では、認知負荷評価 (CLA) 用の AVCAffe データセット … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | M&M: Multimodal-Multitask Model Integrating Audiovisual Cues in Cognitive Load Assessment はコメントを受け付けていません

Non-verbal information in spontaneous speech — towards a new framework of analysis

要約 音声内の非言語信号は韻律によってエンコードされ、会話の動作から態度、感情に … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Non-verbal information in spontaneous speech — towards a new framework of analysis はコメントを受け付けていません

Improving Acoustic Word Embeddings through Correspondence Training of Self-supervised Speech Representations

要約 音響単語埋め込み (AWE) は、話し言葉のベクトル表現です。 AWE を … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Improving Acoustic Word Embeddings through Correspondence Training of Self-supervised Speech Representations はコメントを受け付けていません

StoRM: A Diffusion-based Stochastic Regeneration Model for Speech Enhancement and Dereverberation

要約 拡散モデルは、音声強調に対する予測アプローチと生成アプローチの間のパフォー … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | StoRM: A Diffusion-based Stochastic Regeneration Model for Speech Enhancement and Dereverberation はコメントを受け付けていません

Boosting keyword spotting through on-device learnable user speech characteristics

要約 常時稼働の TinyML 制約のあるアプリケーション用のキーワード スポッ … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Boosting keyword spotting through on-device learnable user speech characteristics はコメントを受け付けていません

An Audio-textual Diffusion Model For Converting Speech Signals Into Ultrasound Tongue Imaging Data

要約 音響-調音反転 (AAI) は、音声を超音波舌画像 (UTI) データなど … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | An Audio-textual Diffusion Model For Converting Speech Signals Into Ultrasound Tongue Imaging Data はコメントを受け付けていません

Multilingual DistilWhisper: Efficient Distillation of Multi-task Speech Models via Language-Specific Experts

要約 Whisper は、99 言語をカバーするマルチタスクおよび多言語音声モデ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Multilingual DistilWhisper: Efficient Distillation of Multi-task Speech Models via Language-Specific Experts はコメントを受け付けていません

Spectrogram-Based Detection of Auto-Tuned Vocals in Music Recordings

要約 音楽制作とオーディオ処理の分野では、オートチューンとしても知られる歌声の自 … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Spectrogram-Based Detection of Auto-Tuned Vocals in Music Recordings はコメントを受け付けていません

Align With Purpose: Optimize Desired Properties in CTC Models with a General Plug-and-Play Framework

要約 コネクショニスト時間分類 (CTC) は、教師ありシーケンスツーシーケンス … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Align With Purpose: Optimize Desired Properties in CTC Models with a General Plug-and-Play Framework はコメントを受け付けていません