eess.AS」カテゴリーアーカイブ

SpeechPrompt v2: Prompt Tuning for Speech Classification Tasks

要約 プロンプト チューニングは、少数のパラメーター セットを調整して事前トレー … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | SpeechPrompt v2: Prompt Tuning for Speech Classification Tasks はコメントを受け付けていません

On the Audio-visual Synchronization for Lip-to-Speech Synthesis

要約 ほとんどのリップ トゥ スピーチ (LTS) 合成モデルは、データセット内 … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | On the Audio-visual Synchronization for Lip-to-Speech Synthesis はコメントを受け付けていません

Cross-modal Face- and Voice-style Transfer

要約 画像から画像への変換と音声変換により、画像内のポーズや音声内の言語コンテン … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Cross-modal Face- and Voice-style Transfer はコメントを受け付けていません

READ Avatars: Realistic Emotion-controllable Audio Driven Avatars

要約 READ Avatars は、感情を直接かつきめ細かく制御するオーディオ入 … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.SD, eess.AS | READ Avatars: Realistic Emotion-controllable Audio Driven Avatars はコメントを受け付けていません

Efficient Large-scale Audio Tagging via Transformer-to-CNN Knowledge Distillation

要約 オーディオ スペクトログラム トランスフォーマー モデルは、オーディオ タ … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Efficient Large-scale Audio Tagging via Transformer-to-CNN Knowledge Distillation はコメントを受け付けていません

Reducing the Prior Mismatch of Stochastic Differential Equations for Diffusion-based Speech Enhancement

要約 最近、スコアベースの生成モデルが音声強調のタスクにうまく採用されています。 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Reducing the Prior Mismatch of Stochastic Differential Equations for Diffusion-based Speech Enhancement はコメントを受け付けていません

Pre-Finetuning for Few-Shot Emotional Speech Recognition

要約 音声モデルは、多くの分類タスクで個々の話者に過剰適合することが長い間知られ … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Pre-Finetuning for Few-Shot Emotional Speech Recognition はコメントを受け付けていません

UniFLG: Unified Facial Landmark Generator from Text or Speech

要約 話し顔の生成は、その幅広い適用性のために広く研究されてきました。 会話面の … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS, eess.IV | UniFLG: Unified Facial Landmark Generator from Text or Speech はコメントを受け付けていません

Investigating the effect of domain selection on automatic speech recognition performance: a case study on Bangladeshi Bangla

要約 データ駆動型の自然言語処理システムのパフォーマンスは、コーパスの品質に左右 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Investigating the effect of domain selection on automatic speech recognition performance: a case study on Bangladeshi Bangla はコメントを受け付けていません

Exploring Self-supervised Pre-trained ASR Models For Dysarthric and Elderly Speech Recognition

要約 障害のある高齢者の発話の自動認識は、そのようなデータを大量に収集することが … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Exploring Self-supervised Pre-trained ASR Models For Dysarthric and Elderly Speech Recognition はコメントを受け付けていません