eess.AS」カテゴリーアーカイブ

Learning Emotional Representations from Imbalanced Speech Data for Speech Emotion Recognition and Emotional Text-to-Speech

要約 効果的な音声感情表現は、音声感情認識 (SER) および感情的テキスト読み … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Learning Emotional Representations from Imbalanced Speech Data for Speech Emotion Recognition and Emotional Text-to-Speech はコメントを受け付けていません

Efficient Encoder-Decoder and Dual-Path Conformer for Comprehensive Feature Learning in Speech Enhancement

要約 現在の音声強調 (SE) 研究では、チャネル アテンションと空間アテンショ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Efficient Encoder-Decoder and Dual-Path Conformer for Comprehensive Feature Learning in Speech Enhancement はコメントを受け付けていません

An Efficient Speech Separation Network Based on Recurrent Fusion Dilated Convolution and Channel Attention

要約 我々は、拡張畳み込み、マルチスケール融合(MSF)、および畳み込みベースの … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | An Efficient Speech Separation Network Based on Recurrent Fusion Dilated Convolution and Channel Attention はコメントを受け付けていません

Developing Speech Processing Pipelines for Police Accountability

要約 警察の身体装着型カメラは、警察の責任と透明性を向上させる可能性を秘めていま … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Developing Speech Processing Pipelines for Police Accountability はコメントを受け付けていません

HRTF upsampling with a generative adversarial network using a gnomonic equiangular projection

要約 個別化された頭部伝達関数 (HRTF) は、現実的な仮想現実 (VR) お … 続きを読む

カテゴリー: cs.CV, cs.HC, cs.LG, cs.SD, eess.AS, eess.SP | HRTF upsampling with a generative adversarial network using a gnomonic equiangular projection はコメントを受け付けていません

Matching Latent Encoding for Audio-Text based Keyword Spotting

要約 キーワード スポッティング (KWS) で音声とテキストの埋め込みを併用す … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Matching Latent Encoding for Audio-Text based Keyword Spotting はコメントを受け付けていません

Assessing Phrase Break of ESL Speech with Pre-trained Language Models and Large Language Models

要約 この研究では、事前トレーニング済み言語モデル (PLM) と大規模言語モデ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Assessing Phrase Break of ESL Speech with Pre-trained Language Models and Large Language Models はコメントを受け付けていません

The ART of Conversation: Measuring Phonetic Convergence and Deliberate Imitation in L2-Speech with a Siamese RNN

要約 音声収束とは、会話中の 2 人の対話者の自動的かつ無意識的な音声適応を指し … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | The ART of Conversation: Measuring Phonetic Convergence and Deliberate Imitation in L2-Speech with a Siamese RNN はコメントを受け付けていません

BabySLM: language-acquisition-friendly benchmark of self-supervised spoken language models

要約 音声表現を学習するための自己教師ありの技術は、人間によるラベルを必要とせず … 続きを読む

カテゴリー: cs.CL, eess.AS, stat.ML | BabySLM: language-acquisition-friendly benchmark of self-supervised spoken language models はコメントを受け付けていません

Two Stage Contextual Word Filtering for Context bias in Unified Streaming and Non-streaming Transducer

要約 E2E ASR システムでは、トレーニング データにあまり出現しないエンテ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Two Stage Contextual Word Filtering for Context bias in Unified Streaming and Non-streaming Transducer はコメントを受け付けていません