cs.SD」カテゴリーアーカイブ

GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Accurate Speech Emotion Recognition

要約 対照的クロスモダリティ事前トレーニングは、最近さまざまな分野で目覚ましい成 … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Accurate Speech Emotion Recognition はコメントを受け付けていません

Spaiche: Extending State-of-the-Art ASR Models to Swiss German Dialects

要約 NLP における最近の進歩により、私たちの日常生活における ASR システ … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Spaiche: Extending State-of-the-Art ASR Models to Swiss German Dialects はコメントを受け付けていません

Can Whisper perform speech-based in-context learning

要約 この論文では、OpenAI によってリリースされた Whisper 自動音 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Can Whisper perform speech-based in-context learning はコメントを受け付けていません

CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model

要約 ノイズ除去拡散確率モデル (DDPM) は、音声合成において有望なパフォー … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM, cs.SD, eess.AS | CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model はコメントを受け付けていません

MASTERKEY: Practical Backdoor Attack Against Speaker Verification Systems

要約 話者認証 (SV) は、音声特性を使用して正当なユーザーを認証するために、 … 続きを読む

カテゴリー: cs.AI, cs.CR, cs.LG, cs.SD, eess.AS | MASTERKEY: Practical Backdoor Attack Against Speaker Verification Systems はコメントを受け付けていません

Weakly-Supervised Multi-Task Learning for Audio-Visual Speaker Verification

要約 この論文では、オープンセットの視聴覚話者検証用に最適化された堅牢なマルチモ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | Weakly-Supervised Multi-Task Learning for Audio-Visual Speaker Verification はコメントを受け付けていません

Assessing the Generalization Gap of Learning-Based Speech Enhancement Systems in Noisy and Reverberant Environments

要約 雑音と残響のある音声混合物の音響変動は、ターゲット話者と干渉ノイズの分光時 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Assessing the Generalization Gap of Learning-Based Speech Enhancement Systems in Noisy and Reverberant Environments はコメントを受け付けていません

RescueSpeech: A German Corpus for Speech Recognition in Search and Rescue Domain

要約 音声認識の最近の進歩にも関わらず、騒がしく残響のある音響環境で会話や感情的 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS, eess.SP | RescueSpeech: A German Corpus for Speech Recognition in Search and Rescue Domain はコメントを受け付けていません

LLaSM: Large Language and Speech Model

要約 マルチモーダル大規模言語モデルは、最近大きな関心を集めています。 ただし、 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | LLaSM: Large Language and Speech Model はコメントを受け付けていません

Speech Separation based on Contrastive Learning and Deep Modularization

要約 現在のモノラルの最先端の音声分離ツールは教師あり学習に依存しています。 こ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Speech Separation based on Contrastive Learning and Deep Modularization はコメントを受け付けていません