「cs.SD」カテゴリーアーカイブ

Efficient Speech Translation with Dynamic Latent Perceivers

投稿日: 2023年3月15日作成者: jarxiv

要約近年、トランスフォーマーは音声翻訳の主要なアーキテクチャであり、翻訳品質の … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Improving Accented Speech Recognition with Multi-Domain Training

投稿日: 2023年3月15日作成者: jarxiv

要約自己教師あり学習の台頭により、自動音声認識 (ASR) システムは現在、さ … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

DECAR: Deep Clustering for learning general-purpose Audio Representations

投稿日: 2023年3月15日作成者: jarxiv

要約汎用の音声表現を学習するための自己教師あり事前トレーニングアプローチであ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Improving Prosody for Cross-Speaker Style Transfer by Semi-Supervised Style Extractor and Hierarchical Modeling in Speech Synthesis

投稿日: 2023年3月15日作成者: jarxiv

要約音声合成における話者間スタイル転送は、スタイルをソーススピーカーからター … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

A Study on Bias and Fairness In Deep Speaker Recognition

投稿日: 2023年3月15日作成者: jarxiv

要約個人を認証し、サービスをパーソナライズする手段として話者認識 (SR) シ … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Multi-Microphone Speaker Separation by Spatial Regions

投稿日: 2023年3月14日作成者: jarxiv

要約残響のあるマルチマイク録音の領域ベースのソース分離のタスクを検討します。 … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Learning Audio Features with Metadata and Contrastive Learning

投稿日: 2023年3月14日作成者: jarxiv

要約アノテーションをエンドツーエンドで使用する教師あり学習に基づく方法は、分類 … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Perceptual-Neural-Physical Sound Matching

投稿日: 2023年3月14日作成者: jarxiv

要約サウンドマッチングアルゴリズムは、パラメトリックオーディオ合成によっ … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Improving the Intent Classification accuracy in Noisy Environment

投稿日: 2023年3月14日作成者: jarxiv

要約意図分類は、主にエンドツーエンドのニューラルモデルでアプローチできる … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Articulation GAN: Unsupervised modeling of articulatory learning

投稿日: 2023年3月14日作成者: jarxiv

要約ジェネレーティブディープニューラルネットワークは音声合成に広く使用さ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

Efficient Speech Translation with Dynamic Latent Perceivers

Improving Accented Speech Recognition with Multi-Domain Training

DECAR: Deep Clustering for learning general-purpose Audio Representations

Improving Prosody for Cross-Speaker Style Transfer by Semi-Supervised Style Extractor and Hierarchical Modeling in Speech Synthesis

A Study on Bias and Fairness In Deep Speaker Recognition

Multi-Microphone Speaker Separation by Spatial Regions

Learning Audio Features with Metadata and Contrastive Learning

Perceptual-Neural-Physical Sound Matching

Improving the Intent Classification accuracy in Noisy Environment

Articulation GAN: Unsupervised modeling of articulatory learning

最近の投稿

最近のコメント

アーカイブ

カテゴリー