eess.AS」カテゴリーアーカイブ

Deep Implicit Distribution Alignment Networks for Cross-Corpus Speech Emotion Recognition

要約 この論文では、コーパス間の音声感情認識 (SER) 問題に対処するために、 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Deep Implicit Distribution Alignment Networks for Cross-Corpus Speech Emotion Recognition はコメントを受け付けていません

Handling the Alignment for Wake Word Detection: A Comparison Between Alignment-Based, Alignment-Free and Hybrid Approaches

要約 ウェイク ワード検出は、ほとんどのインテリジェント ホームやポータブル デ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Handling the Alignment for Wake Word Detection: A Comparison Between Alignment-Based, Alignment-Free and Hybrid Approaches はコメントを受け付けていません

Hypernetworks build Implicit Neural Representations of Sounds

要約 暗黙的ニューラル表現 (INR) は、現在、画像の超解像、画像圧縮、3D … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Hypernetworks build Implicit Neural Representations of Sounds はコメントを受け付けていません

Revisiting Pre-training in Audio-Visual Learning

要約 事前トレーニング手法は、さまざまなタスクでモデルのパフォーマンスを向上させ … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Revisiting Pre-training in Audio-Visual Learning はコメントを受け付けていません

Lip-to-Speech Synthesis in the Wild with Multi-task Learning

要約 最近の研究では、視覚情報のみから音声を再構築することを目的とした口語合成で … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | Lip-to-Speech Synthesis in the Wild with Multi-task Learning はコメントを受け付けていません

Audio-Visual Segmentation

要約 オーディオ ビジュアル セグメンテーション (AVS) と呼ばれる新しい問 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS, eess.IV | Audio-Visual Segmentation はコメントを受け付けていません

TAPLoss: A Temporal Acoustic Parameter Loss for Speech Enhancement

要約 近年、音声強調モデルは大幅に進歩しましたが、音声出力の知覚品質にはまだ限界 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | TAPLoss: A Temporal Acoustic Parameter Loss for Speech Enhancement はコメントを受け付けていません

PAAPLoss: A Phonetic-Aligned Acoustic Parameter Loss for Speech Enhancement

要約 近年の急速な進歩にもかかわらず、現在の音声強調モデルは、実際のきれいな音声 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | PAAPLoss: A Phonetic-Aligned Acoustic Parameter Loss for Speech Enhancement はコメントを受け付けていません

Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition

要約 Visual Speech Recognition (VSR) は、唇の動 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.SD, eess.AS, eess.IV | Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition はコメントを受け付けていません

Surrogate Gradient Spiking Neural Networks as Encoders for Large Vocabulary Continuous Speech Recognition

要約 高密度で実数値の応答を生成する従来の人工ニューロンと比較して、生物学に着想 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.NE, cs.SD, eess.AS | Surrogate Gradient Spiking Neural Networks as Encoders for Large Vocabulary Continuous Speech Recognition はコメントを受け付けていません