「eess.AS」カテゴリーアーカイブ

A Comparative Study of Self-Supervised Speech Representations in Read and Spontaneous TTS

投稿日: 2023年7月11日作成者: jarxiv

要約最近の研究では、標準的な 2 段階 TTS の表現媒体として、従来使用され … 続きを読む →

カテゴリー: 68T05, cs.HC, cs.LG, cs.SD, eess.AS, I.2.6 | コメントを受け付けていません

GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition

投稿日: 2023年7月11日作成者: jarxiv

要約対照学習ベースの事前トレーニング方法は、最近、さまざまな分野で目覚ましい成 … 続きを読む →

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Task-Agnostic Structured Pruning of Speech Representation Models

投稿日: 2023年7月11日作成者: jarxiv

要約 Wav2vec2、Hubert、WavLM などの自己教師付き事前トレーニ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Can Generative Large Language Models Perform ASR Error Correction?

投稿日: 2023年7月11日作成者: jarxiv

要約 ASR エラー修正は、音声認識システムの後処理の重要な部分として機能し続け … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

VampNet: Music Generation via Masked Acoustic Token Modeling

投稿日: 2023年7月11日作成者: jarxiv

要約音楽の合成、圧縮、修復、バリエーションに対するマスクされた音響トークンモ … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Diff-TTSG: Denoising probabilistic integrated speech and gesture synthesis

投稿日: 2023年7月11日作成者: jarxiv

要約読み上げ音声合成が高い自然性スコアを達成することで、自発的な音声の合成に対 … 続きを読む →

カテゴリー: 68T07, 68T42, cs.AI, cs.CV, cs.HC, cs.LG, eess.AS, G.3 | コメントを受け付けていません

Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos

投稿日: 2023年7月11日作成者: jarxiv

要約私たちは、自己中心的なビデオにおける空間的な視聴覚対応に基づいて表現を学習 … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

ESPnet-ST-v2: Multipurpose Spoken Language Translation Toolkit

投稿日: 2023年7月10日作成者: jarxiv

要約 ESPnet-ST-v2 は、音声言語翻訳コミュニティの関心の拡大によって … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Gammatonegram Representation for End-to-End Dysarthric Speech Processing Tasks: Speech Recognition, Speaker Identification, and Intelligibility Assessment

投稿日: 2023年7月10日作成者: jarxiv

要約構音障害は、人間の音声システムに障害を引き起こし、音声の質と明瞭度を低下さ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Token-Level Serialized Output Training for Joint Streaming ASR and ST Leveraging Textual Alignments

投稿日: 2023年7月10日作成者: jarxiv

要約実際のアプリケーションでは、特に増分生成が必要なストリーミングシナリオで … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

A Comparative Study of Self-Supervised Speech Representations in Read and Spontaneous TTS

GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition

Task-Agnostic Structured Pruning of Speech Representation Models

Can Generative Large Language Models Perform ASR Error Correction?

VampNet: Music Generation via Masked Acoustic Token Modeling

Diff-TTSG: Denoising probabilistic integrated speech and gesture synthesis

Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos

ESPnet-ST-v2: Multipurpose Spoken Language Translation Toolkit

Gammatonegram Representation for End-to-End Dysarthric Speech Processing Tasks: Speech Recognition, Speaker Identification, and Intelligibility Assessment

Token-Level Serialized Output Training for Joint Streaming ASR and ST Leveraging Textual Alignments

最近の投稿

最近のコメント

アーカイブ

カテゴリー