eess.AS」カテゴリーアーカイブ

Knowledge-aware Bayesian Co-attention for Multimodal Emotion Recognition

要約 マルチモーダル感情認識は、さまざまなモダリティを融合して人間の感情を予測す … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Knowledge-aware Bayesian Co-attention for Multimodal Emotion Recognition はコメントを受け付けていません

Towards Measuring and Scoring Speaker Diarization Fairness

要約 話者ダイアライゼーション、つまり「誰がいつ話したか」を見つけるタスクは、現 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Towards Measuring and Scoring Speaker Diarization Fairness はコメントを受け付けていません

A Sidecar Separator Can Convert a Single-Speaker Speech Recognition System to a Multi-Speaker One

要約 自動音声認識 (ASR) は、一般的な非重複環境で適切に機能しますが、マル … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | A Sidecar Separator Can Convert a Single-Speaker Speech Recognition System to a Multi-Speaker One はコメントを受け付けていません

JEIT: Joint End-to-End Model and Internal Language Model Training for Speech Recognition

要約 エンドツーエンド (E2E) モデルと内部言語モデル (ILM) のジョイ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | JEIT: Joint End-to-End Model and Internal Language Model Training for Speech Recognition はコメントを受け付けていません

Modular Hybrid Autoregressive Transducer

要約 トランスデューサには明確に分離された音響モデル (AM)、言語モデル (L … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | Modular Hybrid Autoregressive Transducer はコメントを受け付けていません

Towards Building Text-To-Speech Systems for the Next Billion Users

要約 ディープ ラーニング ベースのテキスト読み上げ (TTS) システムは、モ … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Towards Building Text-To-Speech Systems for the Next Billion Users はコメントを受け付けていません

Deep Implicit Distribution Alignment Networks for Cross-Corpus Speech Emotion Recognition

要約 この論文では、コーパス間の音声感情認識 (SER) 問題に対処するために、 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Deep Implicit Distribution Alignment Networks for Cross-Corpus Speech Emotion Recognition はコメントを受け付けていません

Handling the Alignment for Wake Word Detection: A Comparison Between Alignment-Based, Alignment-Free and Hybrid Approaches

要約 ウェイク ワード検出は、ほとんどのインテリジェント ホームやポータブル デ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Handling the Alignment for Wake Word Detection: A Comparison Between Alignment-Based, Alignment-Free and Hybrid Approaches はコメントを受け付けていません

Hypernetworks build Implicit Neural Representations of Sounds

要約 暗黙的ニューラル表現 (INR) は、現在、画像の超解像、画像圧縮、3D … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Hypernetworks build Implicit Neural Representations of Sounds はコメントを受け付けていません

Revisiting Pre-training in Audio-Visual Learning

要約 事前トレーニング手法は、さまざまなタスクでモデルのパフォーマンスを向上させ … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Revisiting Pre-training in Audio-Visual Learning はコメントを受け付けていません