「eess.AS」カテゴリーアーカイブ

CiwaGAN: Articulatory information exchange

投稿日: 2023年9月15日作成者: jarxiv

要約人間は調音器官を制御することで情報を音に符号化し、聴覚装置を使用して音から … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

SeACo-Paraformer: A Non-Autoregressive ASR System with Flexible and Effective Hotword Customization Ability

投稿日: 2023年9月14日作成者: jarxiv

要約ホットワードのカスタマイズは、ASR 分野に残された懸念事項の 1 つです … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Accurate Speech Emotion Recognition

投稿日: 2023年9月14日作成者: jarxiv

要約対照的クロスモダリティ事前トレーニングは、最近さまざまな分野で目覚ましい成 … 続きを読む →

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Spaiche: Extending State-of-the-Art ASR Models to Swiss German Dialects

投稿日: 2023年9月14日作成者: jarxiv

要約 NLP における最近の進歩により、私たちの日常生活における ASR システ … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Can Whisper perform speech-based in-context learning

投稿日: 2023年9月14日作成者: jarxiv

要約この論文では、OpenAI によってリリースされた Whisper 自動音 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model

投稿日: 2023年9月14日作成者: jarxiv

要約ノイズ除去拡散確率モデル (DDPM) は、音声合成において有望なパフォー … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

MASTERKEY: Practical Backdoor Attack Against Speaker Verification Systems

投稿日: 2023年9月14日作成者: jarxiv

要約話者認証 (SV) は、音声特性を使用して正当なユーザーを認証するために、 … 続きを読む →

カテゴリー: cs.AI, cs.CR, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Weakly-Supervised Multi-Task Learning for Audio-Visual Speaker Verification

投稿日: 2023年9月14日作成者: jarxiv

要約この論文では、オープンセットの視聴覚話者検証用に最適化された堅牢なマルチモ … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Assessing the Generalization Gap of Learning-Based Speech Enhancement Systems in Noisy and Reverberant Environments

投稿日: 2023年9月13日作成者: jarxiv

要約雑音と残響のある音声混合物の音響変動は、ターゲット話者と干渉ノイズの分光時 … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

RescueSpeech: A German Corpus for Speech Recognition in Search and Rescue Domain

投稿日: 2023年9月13日作成者: jarxiv

要約音声認識の最近の進歩にも関わらず、騒がしく残響のある音響環境で会話や感情的 … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS, eess.SP | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

CiwaGAN: Articulatory information exchange

SeACo-Paraformer: A Non-Autoregressive ASR System with Flexible and Effective Hotword Customization Ability

GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Accurate Speech Emotion Recognition

Spaiche: Extending State-of-the-Art ASR Models to Swiss German Dialects

Can Whisper perform speech-based in-context learning

CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model

MASTERKEY: Practical Backdoor Attack Against Speaker Verification Systems

Weakly-Supervised Multi-Task Learning for Audio-Visual Speaker Verification

Assessing the Generalization Gap of Learning-Based Speech Enhancement Systems in Noisy and Reverberant Environments

RescueSpeech: A German Corpus for Speech Recognition in Search and Rescue Domain

最近の投稿

最近のコメント

アーカイブ

カテゴリー