「cs.SD」カテゴリーアーカイブ

N-best T5: Robust ASR Error Correction using Multiple Input Hypotheses and Constrained Decoding Space

投稿日: 2023年3月2日作成者: jarxiv

要約エラー訂正モデルは、自動音声認識 (ASR) 後処理の重要な部分を形成し、 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Improving Noisy Student Training on Non-target Domain Data for Automatic Speech Recognition

投稿日: 2023年3月2日作成者: jarxiv

要約 Noisy Student Training (NST) は最近、自動音声 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

SpeechPrompt v2: Prompt Tuning for Speech Classification Tasks

投稿日: 2023年3月2日作成者: jarxiv

要約プロンプトチューニングは、少数のパラメーターセットを調整して事前トレー … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

On the Audio-visual Synchronization for Lip-to-Speech Synthesis

投稿日: 2023年3月2日作成者: jarxiv

要約ほとんどのリップトゥスピーチ (LTS) 合成モデルは、データセット内 … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Cross-modal Face- and Voice-style Transfer

投稿日: 2023年3月2日作成者: jarxiv

要約画像から画像への変換と音声変換により、画像内のポーズや音声内の言語コンテン … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

READ Avatars: Realistic Emotion-controllable Audio Driven Avatars

投稿日: 2023年3月2日作成者: jarxiv

要約 READ Avatars は、感情を直接かつきめ細かく制御するオーディオ入 … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.SD, eess.AS | コメントを受け付けていません

Efficient Large-scale Audio Tagging via Transformer-to-CNN Knowledge Distillation

投稿日: 2023年3月1日作成者: jarxiv

要約オーディオスペクトログラムトランスフォーマーモデルは、オーディオタ … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Reducing the Prior Mismatch of Stochastic Differential Equations for Diffusion-based Speech Enhancement

投稿日: 2023年3月1日作成者: jarxiv

要約最近、スコアベースの生成モデルが音声強調のタスクにうまく採用されています。 … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Pre-Finetuning for Few-Shot Emotional Speech Recognition

投稿日: 2023年3月1日作成者: jarxiv

要約音声モデルは、多くの分類タスクで個々の話者に過剰適合することが長い間知られ … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

UniFLG: Unified Facial Landmark Generator from Text or Speech

投稿日: 2023年3月1日作成者: jarxiv

要約話し顔の生成は、その幅広い適用性のために広く研究されてきました。会話面の … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS, eess.IV | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

N-best T5: Robust ASR Error Correction using Multiple Input Hypotheses and Constrained Decoding Space

Improving Noisy Student Training on Non-target Domain Data for Automatic Speech Recognition

SpeechPrompt v2: Prompt Tuning for Speech Classification Tasks

On the Audio-visual Synchronization for Lip-to-Speech Synthesis

Cross-modal Face- and Voice-style Transfer

READ Avatars: Realistic Emotion-controllable Audio Driven Avatars

Efficient Large-scale Audio Tagging via Transformer-to-CNN Knowledge Distillation

Reducing the Prior Mismatch of Stochastic Differential Equations for Diffusion-based Speech Enhancement

Pre-Finetuning for Few-Shot Emotional Speech Recognition

UniFLG: Unified Facial Landmark Generator from Text or Speech

最近の投稿

最近のコメント

アーカイブ

カテゴリー