eess.AS」カテゴリーアーカイブ

Lip-to-Speech Synthesis in the Wild with Multi-task Learning

要約 最近の研究では、視覚情報のみから音声を再構築することを目的とした口語合成で … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | Lip-to-Speech Synthesis in the Wild with Multi-task Learning はコメントを受け付けていません

Audio-Visual Segmentation

要約 オーディオ ビジュアル セグメンテーション (AVS) と呼ばれる新しい問 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS, eess.IV | Audio-Visual Segmentation はコメントを受け付けていません

TAPLoss: A Temporal Acoustic Parameter Loss for Speech Enhancement

要約 近年、音声強調モデルは大幅に進歩しましたが、音声出力の知覚品質にはまだ限界 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | TAPLoss: A Temporal Acoustic Parameter Loss for Speech Enhancement はコメントを受け付けていません

PAAPLoss: A Phonetic-Aligned Acoustic Parameter Loss for Speech Enhancement

要約 近年の急速な進歩にもかかわらず、現在の音声強調モデルは、実際のきれいな音声 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | PAAPLoss: A Phonetic-Aligned Acoustic Parameter Loss for Speech Enhancement はコメントを受け付けていません

Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition

要約 Visual Speech Recognition (VSR) は、唇の動 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.SD, eess.AS, eess.IV | Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition はコメントを受け付けていません

Surrogate Gradient Spiking Neural Networks as Encoders for Large Vocabulary Continuous Speech Recognition

要約 高密度で実数値の応答を生成する従来の人工ニューロンと比較して、生物学に着想 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.NE, cs.SD, eess.AS | Surrogate Gradient Spiking Neural Networks as Encoders for Large Vocabulary Continuous Speech Recognition はコメントを受け付けていません

BigVGAN: A Universal Neural Vocoder with Large-Scale Training

要約 モデルが音響特性に合わせて調整された生の波形を生成する、Generativ … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | BigVGAN: A Universal Neural Vocoder with Large-Scale Training はコメントを受け付けていません

Speech Enhancement for Virtual Meetings on Cellular Networks

要約 送信された音声にはバックグラウンド ノイズがあり、音声品質に影響を与える伝 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Speech Enhancement for Virtual Meetings on Cellular Networks はコメントを受け付けていません

MAC: A unified framework boosting low resource automatic speech recognition

要約 メタ オーディオ連結 (MAC) と呼ばれる低リソースの自動音声認識タスク … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | MAC: A unified framework boosting low resource automatic speech recognition はコメントを受け付けていません

System Fingerprint Recognition for Deepfake Audio: An Initial Dataset and Investigation

要約 深層音声合成モデルの悪用は、社会に重大な脅威をもたらす可能性があります。 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | System Fingerprint Recognition for Deepfake Audio: An Initial Dataset and Investigation はコメントを受け付けていません