「eess.AS」カテゴリーアーカイブ

Deep Implicit Distribution Alignment Networks for Cross-Corpus Speech Emotion Recognition

投稿日: 2023年2月20日作成者: jarxiv

要約この論文では、コーパス間の音声感情認識 (SER) 問題に対処するために、 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Handling the Alignment for Wake Word Detection: A Comparison Between Alignment-Based, Alignment-Free and Hybrid Approaches

投稿日: 2023年2月20日作成者: jarxiv

要約ウェイクワード検出は、ほとんどのインテリジェントホームやポータブルデ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Hypernetworks build Implicit Neural Representations of Sounds

投稿日: 2023年2月20日作成者: jarxiv

要約暗黙的ニューラル表現 (INR) は、現在、画像の超解像、画像圧縮、3D … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Revisiting Pre-training in Audio-Visual Learning

投稿日: 2023年2月20日作成者: jarxiv

要約事前トレーニング手法は、さまざまなタスクでモデルのパフォーマンスを向上させ … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Lip-to-Speech Synthesis in the Wild with Multi-task Learning

投稿日: 2023年2月20日作成者: jarxiv

要約最近の研究では、視覚情報のみから音声を再構築することを目的とした口語合成で … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Audio-Visual Segmentation

投稿日: 2023年2月20日作成者: jarxiv

要約オーディオビジュアルセグメンテーション (AVS) と呼ばれる新しい問 … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS, eess.IV | コメントを受け付けていません

TAPLoss: A Temporal Acoustic Parameter Loss for Speech Enhancement

投稿日: 2023年2月17日作成者: jarxiv

要約近年、音声強調モデルは大幅に進歩しましたが、音声出力の知覚品質にはまだ限界 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

PAAPLoss: A Phonetic-Aligned Acoustic Parameter Loss for Speech Enhancement

投稿日: 2023年2月17日作成者: jarxiv

要約近年の急速な進歩にもかかわらず、現在の音声強調モデルは、実際のきれいな音声 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition

投稿日: 2023年2月17日作成者: jarxiv

要約 Visual Speech Recognition (VSR) は、唇の動 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.SD, eess.AS, eess.IV | コメントを受け付けていません

Surrogate Gradient Spiking Neural Networks as Encoders for Large Vocabulary Continuous Speech Recognition

投稿日: 2023年2月17日作成者: jarxiv

要約高密度で実数値の応答を生成する従来の人工ニューロンと比較して、生物学に着想 … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.NE, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

Deep Implicit Distribution Alignment Networks for Cross-Corpus Speech Emotion Recognition

Handling the Alignment for Wake Word Detection: A Comparison Between Alignment-Based, Alignment-Free and Hybrid Approaches

Hypernetworks build Implicit Neural Representations of Sounds

Revisiting Pre-training in Audio-Visual Learning

Lip-to-Speech Synthesis in the Wild with Multi-task Learning

Audio-Visual Segmentation

TAPLoss: A Temporal Acoustic Parameter Loss for Speech Enhancement

PAAPLoss: A Phonetic-Aligned Acoustic Parameter Loss for Speech Enhancement

Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition

Surrogate Gradient Spiking Neural Networks as Encoders for Large Vocabulary Continuous Speech Recognition

最近の投稿

最近のコメント

アーカイブ

カテゴリー