「cs.SD」カテゴリーアーカイブ

Revisiting Pre-training in Audio-Visual Learning

投稿日: 2023年2月20日作成者: jarxiv

要約事前トレーニング手法は、さまざまなタスクでモデルのパフォーマンスを向上させ … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Lip-to-Speech Synthesis in the Wild with Multi-task Learning

投稿日: 2023年2月20日作成者: jarxiv

要約最近の研究では、視覚情報のみから音声を再構築することを目的とした口語合成で … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Audio-Visual Segmentation

投稿日: 2023年2月20日作成者: jarxiv

要約オーディオビジュアルセグメンテーション (AVS) と呼ばれる新しい問 … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS, eess.IV | コメントを受け付けていません

TAPLoss: A Temporal Acoustic Parameter Loss for Speech Enhancement

投稿日: 2023年2月17日作成者: jarxiv

要約近年、音声強調モデルは大幅に進歩しましたが、音声出力の知覚品質にはまだ限界 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

PAAPLoss: A Phonetic-Aligned Acoustic Parameter Loss for Speech Enhancement

投稿日: 2023年2月17日作成者: jarxiv

要約近年の急速な進歩にもかかわらず、現在の音声強調モデルは、実際のきれいな音声 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition

投稿日: 2023年2月17日作成者: jarxiv

要約 Visual Speech Recognition (VSR) は、唇の動 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.SD, eess.AS, eess.IV | コメントを受け付けていません

Surrogate Gradient Spiking Neural Networks as Encoders for Large Vocabulary Continuous Speech Recognition

投稿日: 2023年2月17日作成者: jarxiv

要約高密度で実数値の応答を生成する従来の人工ニューロンと比較して、生物学に着想 … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.NE, cs.SD, eess.AS | コメントを受け付けていません

BigVGAN: A Universal Neural Vocoder with Large-Scale Training

投稿日: 2023年2月17日作成者: jarxiv

要約モデルが音響特性に合わせて調整された生の波形を生成する、Generativ … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Speech Enhancement for Virtual Meetings on Cellular Networks

投稿日: 2023年2月17日作成者: jarxiv

要約送信された音声にはバックグラウンドノイズがあり、音声品質に影響を与える伝 … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

MAC: A unified framework boosting low resource automatic speech recognition

投稿日: 2023年2月16日作成者: jarxiv

要約メタオーディオ連結 (MAC) と呼ばれる低リソースの自動音声認識タスク … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

Revisiting Pre-training in Audio-Visual Learning

Lip-to-Speech Synthesis in the Wild with Multi-task Learning

Audio-Visual Segmentation

TAPLoss: A Temporal Acoustic Parameter Loss for Speech Enhancement

PAAPLoss: A Phonetic-Aligned Acoustic Parameter Loss for Speech Enhancement

Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition

Surrogate Gradient Spiking Neural Networks as Encoders for Large Vocabulary Continuous Speech Recognition

BigVGAN: A Universal Neural Vocoder with Large-Scale Training

Speech Enhancement for Virtual Meetings on Cellular Networks

MAC: A unified framework boosting low resource automatic speech recognition

最近の投稿

最近のコメント

アーカイブ

カテゴリー