cs.SD」カテゴリーアーカイブ

Exploring Meta Information for Audio-based Zero-shot Bird Classification

要約 受動的音響モニタリングと機械学習の進歩により、計算による生体音響研究のため … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Exploring Meta Information for Audio-based Zero-shot Bird Classification はコメントを受け付けていません

Towards Word-Level End-to-End Neural Speaker Diarization with Auxiliary Network

要約 標準的な話者ダイアリゼーションは「誰がいつ話したか」という質問に答えようと … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS, stat.ML | Towards Word-Level End-to-End Neural Speaker Diarization with Auxiliary Network はコメントを受け付けていません

Cross-lingual Knowledge Distillation via Flow-based Voice Conversion for Robust Polyglot Text-To-Speech

要約 この研究では、上流の音声変換 (VC) モデルと下流の Text-To-S … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Cross-lingual Knowledge Distillation via Flow-based Voice Conversion for Robust Polyglot Text-To-Speech はコメントを受け付けていません

DiaCorrect: Error Correction Back-end For Speaker Diarization

要約 この研究では、シンプルかつ効果的な方法でダイアライゼーション システムの出 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | DiaCorrect: Error Correction Back-end For Speaker Diarization はコメントを受け付けていません

Mixture Encoder Supporting Continuous Speech Separation for Meeting Recognition

要約 自動音声認識 (ASR) の現実のアプリケーションの多くは、重複した音声の … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Mixture Encoder Supporting Continuous Speech Separation for Meeting Recognition はコメントを受け付けていません

Augmenting conformers with structured state space models for online speech recognition

要約 モデルが左側のコンテキストにのみアクセスするオンライン音声認識は、ASR … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Augmenting conformers with structured state space models for online speech recognition はコメントを受け付けていません

System Fingerprint Recognition for Deepfake Audio: An Initial Dataset and Investigation

要約 深層音声合成モデルの急速な進歩は、悪意のあるコンテンツ操作などの重大な脅威 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | System Fingerprint Recognition for Deepfake Audio: An Initial Dataset and Investigation はコメントを受け付けていません

Text-Driven Foley Sound Generation With Latent Diffusion Model

要約 フォーリー サウンド生成は、マルチメディア コンテンツの背景サウンドを合成 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Text-Driven Foley Sound Generation With Latent Diffusion Model はコメントを受け付けていません

Discrete Acoustic Space for an Efficient Sampling in Neural Text-To-Speech

要約 有名な変分オートエンコーダ (VAE) およびベクトル量子化変分オートエン … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Discrete Acoustic Space for an Efficient Sampling in Neural Text-To-Speech はコメントを受け付けていません

Direct Text to Speech Translation System using Acoustic Units

要約 本稿では、離散音響ユニットを用いたテキストから音声への直接翻訳システムを提 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Direct Text to Speech Translation System using Acoustic Units はコメントを受け付けていません