「cs.SD」カテゴリーアーカイブ

Exploring Phonetic Context-Aware Lip-Sync For Talking Face Generation

投稿日: 2024年1月17日作成者: jarxiv

要約話し顔の生成は、特定の音声と正確に同期する必要がある、自然でリアルな顔を合 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.SD, eess.AS, eess.IV | コメントを受け付けていません

DurFlex-EVC: Duration-Flexible Emotional Voice Conversion with Parallel Generation

投稿日: 2024年1月17日作成者: jarxiv

要約感情音声変換 (EVC) は、元の言語内容と話者の固有の音声特性を維持しな … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

VoiceFlow: Efficient Text-to-Speech with Rectified Flow Matching

投稿日: 2024年1月17日作成者: jarxiv

要約テキスト読み上げにおける拡散モデルは、その強力な生成能力により一般的な選択 … 続きを読む →

カテゴリー: cs.AI, cs.HC, cs.SD, eess.AS | コメントを受け付けていません

An Explainable Proxy Model for Multiabel Audio Segmentation

投稿日: 2024年1月17日作成者: jarxiv

要約オーディオ信号のセグメンテーションは、自動オーディオインデックス作成の重 … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS, eess.SP | コメントを受け付けていません

NAAQA: A Neural Architecture for Acoustic Question Answering

投稿日: 2024年1月15日作成者: jarxiv

要約音響質問応答 (AQA) タスクの目標は、音響シーンの内容に関する自由形式 … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS, I.2.10 | コメントを受け付けていません

Learning Temporal Resolution in Spectrogram for Audio Classification

投稿日: 2024年1月15日作成者: jarxiv

要約オーディオスペクトログラムは、オーディオの分類に広く使用されている時間と … 続きを読む →

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS, eess.SP | コメントを受け付けていません

Lip Reading for Low-resource Languages by Learning and Combining General Speech Knowledge and Language-specific Knowledge

投稿日: 2024年1月15日作成者: jarxiv

要約この論文は、これまでの文献では十分に取り上げられていなかった、特に低リソー … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS, eess.IV | コメントを受け付けていません

Dynamic Behaviour of Connectionist Speech Recognition with Strong Latency Constraints

投稿日: 2024年1月15日作成者: jarxiv

要約この論文では、強力な遅延制約を伴う音声音声認識におけるコネクショニスト手法 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.SD, eess.AS, I.2.7 | コメントを受け付けていません

Automated speech audiometry: Can it work using open-source pre-trained Kaldi-NL automatic speech recognition?

投稿日: 2024年1月12日作成者: jarxiv

要約実用的な音声聴力測定ツールは、さまざまな年齢や聴力状態の集団の聴力スクリー … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

A-JEPA: Joint-Embedding Predictive Architecture Can Listen

投稿日: 2024年1月12日作成者: jarxiv

要約この論文では、大規模な基礎ビジョンモデルの成功を推進するマスクモデリン … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

Exploring Phonetic Context-Aware Lip-Sync For Talking Face Generation

DurFlex-EVC: Duration-Flexible Emotional Voice Conversion with Parallel Generation

VoiceFlow: Efficient Text-to-Speech with Rectified Flow Matching

An Explainable Proxy Model for Multiabel Audio Segmentation

NAAQA: A Neural Architecture for Acoustic Question Answering

Learning Temporal Resolution in Spectrogram for Audio Classification

Lip Reading for Low-resource Languages by Learning and Combining General Speech Knowledge and Language-specific Knowledge

Dynamic Behaviour of Connectionist Speech Recognition with Strong Latency Constraints

Automated speech audiometry: Can it work using open-source pre-trained Kaldi-NL automatic speech recognition?

A-JEPA: Joint-Embedding Predictive Architecture Can Listen

最近の投稿

最近のコメント

アーカイブ

カテゴリー