cs.SD」カテゴリーアーカイブ

Exploring Phonetic Context-Aware Lip-Sync For Talking Face Generation

要約 話し顔の生成は、特定の音声と正確に同期する必要がある、自然でリアルな顔を合 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.SD, eess.AS, eess.IV | Exploring Phonetic Context-Aware Lip-Sync For Talking Face Generation はコメントを受け付けていません

DurFlex-EVC: Duration-Flexible Emotional Voice Conversion with Parallel Generation

要約 感情音声変換 (EVC) は、元の言語内容と話者の固有の音声特性を維持しな … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | DurFlex-EVC: Duration-Flexible Emotional Voice Conversion with Parallel Generation はコメントを受け付けていません

VoiceFlow: Efficient Text-to-Speech with Rectified Flow Matching

要約 テキスト読み上げにおける拡散モデルは、その強力な生成能力により一般的な選択 … 続きを読む

カテゴリー: cs.AI, cs.HC, cs.SD, eess.AS | VoiceFlow: Efficient Text-to-Speech with Rectified Flow Matching はコメントを受け付けていません

An Explainable Proxy Model for Multiabel Audio Segmentation

要約 オーディオ信号のセグメンテーションは、自動オーディオ インデックス作成の重 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS, eess.SP | An Explainable Proxy Model for Multiabel Audio Segmentation はコメントを受け付けていません

NAAQA: A Neural Architecture for Acoustic Question Answering

要約 音響質問応答 (AQA) タスクの目標は、音響シーンの内容に関する自由形式 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS, I.2.10 | NAAQA: A Neural Architecture for Acoustic Question Answering はコメントを受け付けていません

Learning Temporal Resolution in Spectrogram for Audio Classification

要約 オーディオ スペクトログラムは、オーディオの分類に広く使用されている時間と … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS, eess.SP | Learning Temporal Resolution in Spectrogram for Audio Classification はコメントを受け付けていません

Lip Reading for Low-resource Languages by Learning and Combining General Speech Knowledge and Language-specific Knowledge

要約 この論文は、これまでの文献では十分に取り上げられていなかった、特に低リソー … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS, eess.IV | Lip Reading for Low-resource Languages by Learning and Combining General Speech Knowledge and Language-specific Knowledge はコメントを受け付けていません

Dynamic Behaviour of Connectionist Speech Recognition with Strong Latency Constraints

要約 この論文では、強力な遅延制約を伴う音声音声認識におけるコネクショニスト手法 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.SD, eess.AS, I.2.7 | Dynamic Behaviour of Connectionist Speech Recognition with Strong Latency Constraints はコメントを受け付けていません

Automated speech audiometry: Can it work using open-source pre-trained Kaldi-NL automatic speech recognition?

要約 実用的な音声聴力測定ツールは、さまざまな年齢や聴力状態の集団の聴力スクリー … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Automated speech audiometry: Can it work using open-source pre-trained Kaldi-NL automatic speech recognition? はコメントを受け付けていません

A-JEPA: Joint-Embedding Predictive Architecture Can Listen

要約 この論文では、大規模な基礎ビジョン モデルの成功を推進するマスク モデリン … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | A-JEPA: Joint-Embedding Predictive Architecture Can Listen はコメントを受け付けていません