「eess.AS」カテゴリーアーカイブ

ESPnet-SPK: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models

投稿日: 2024年1月31日作成者: jarxiv

要約このペーパーでは、スピーカー埋め込み抽出器をトレーニングするためのいくつか … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Scaling NVIDIA’s Multi-speaker Multi-lingual TTS Systems with Zero-Shot TTS to Indic Languages

投稿日: 2024年1月30日作成者: jarxiv

要約このペーパーでは、MMITS-VC (音声クローニングを備えたマルチスピー … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Synchformer: Efficient Synchronization from Sparse Cues

投稿日: 2024年1月30日作成者: jarxiv

要約私たちの目的は、同期キューがまばらな可能性がある YouTube などの「 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

MT-SLVR: Multi-Task Self-Supervised Learning for Transformation In(Variant) Representations

投稿日: 2024年1月29日作成者: jarxiv

要約対照的自己教師あり学習は、大規模なラベルなしデータセットから高品質の表現を … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Enhancement of a Text-Independent Speaker Verification System by using Feature Combination and Parallel-Structure Classifiers

投稿日: 2024年1月29日作成者: jarxiv

要約話者検証 (SV) システムには、主に特徴抽出と分類という 2 つの個別の … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Multiple output samples per input in a single-output Gaussian process

投稿日: 2024年1月29日作成者: jarxiv

要約標準のガウスプロセス (GP) では、トレーニングセット内の入力ごとに … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

UNIT-DSR: Dysarthric Speech Reconstruction System Using Speech Unit Normalization

投稿日: 2024年1月29日作成者: jarxiv

要約構音障害音声再構成 (DSR) システムは、構音障害のある音声を正常な音声 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Comparison of parameters of vowel sounds of russian and english languages

投稿日: 2024年1月29日作成者: jarxiv

要約多言語音声認識システムでは、言語が事前にわかっていないにもかかわらず、信号 … 続きを読む →

カテゴリー: 68T10, cs.CL, cs.SD, eess.AS, H.2.8 | コメントを受け付けていません

Turn-taking and Backchannel Prediction with Acoustic and Large Language Model Fusion

投稿日: 2024年1月29日作成者: jarxiv

要約我々は、神経音響モデルと大規模言語モデル（LLM）を融合することにより、音 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Disentanglement in a GAN for Unconditional Speech Synthesis

投稿日: 2024年1月26日作成者: jarxiv

要約明示的な条件付けをせずに、潜在空間から直接リアルな音声を合成できるモデルを … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

ESPnet-SPK: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models

Scaling NVIDIA’s Multi-speaker Multi-lingual TTS Systems with Zero-Shot TTS to Indic Languages

Synchformer: Efficient Synchronization from Sparse Cues

MT-SLVR: Multi-Task Self-Supervised Learning for Transformation In(Variant) Representations

Enhancement of a Text-Independent Speaker Verification System by using Feature Combination and Parallel-Structure Classifiers

Multiple output samples per input in a single-output Gaussian process

UNIT-DSR: Dysarthric Speech Reconstruction System Using Speech Unit Normalization

Comparison of parameters of vowel sounds of russian and english languages

Turn-taking and Backchannel Prediction with Acoustic and Large Language Model Fusion

Disentanglement in a GAN for Unconditional Speech Synthesis

最近の投稿

最近のコメント

アーカイブ

カテゴリー