eess.AS」カテゴリーアーカイブ

A Comparative Study of Self-Supervised Speech Representations in Read and Spontaneous TTS

要約 最近の研究では、標準的な 2 段階 TTS の表現媒体として、従来使用され … 続きを読む

カテゴリー: 68T05, cs.HC, cs.LG, cs.SD, eess.AS, I.2.6 | A Comparative Study of Self-Supervised Speech Representations in Read and Spontaneous TTS はコメントを受け付けていません

GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition

要約 対照学習ベースの事前トレーニング方法は、最近、さまざまな分野で目覚ましい成 … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition はコメントを受け付けていません

Task-Agnostic Structured Pruning of Speech Representation Models

要約 Wav2vec2、Hubert、WavLM などの自己教師付き事前トレーニ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Task-Agnostic Structured Pruning of Speech Representation Models はコメントを受け付けていません

Can Generative Large Language Models Perform ASR Error Correction?

要約 ASR エラー修正は、音声認識システムの後処理の重要な部分として機能し続け … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Can Generative Large Language Models Perform ASR Error Correction? はコメントを受け付けていません

VampNet: Music Generation via Masked Acoustic Token Modeling

要約 音楽の合成、圧縮、修復、バリエーションに対するマスクされた音響トークン モ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | VampNet: Music Generation via Masked Acoustic Token Modeling はコメントを受け付けていません

Diff-TTSG: Denoising probabilistic integrated speech and gesture synthesis

要約 読み上げ音声合成が高い自然性スコアを達成することで、自発的な音声の合成に対 … 続きを読む

カテゴリー: 68T07, 68T42, cs.AI, cs.CV, cs.HC, cs.LG, eess.AS, G.3 | Diff-TTSG: Denoising probabilistic integrated speech and gesture synthesis はコメントを受け付けていません

Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos

要約 私たちは、自己中心的なビデオにおける空間的な視聴覚対応に基づいて表現を学習 … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos はコメントを受け付けていません

ESPnet-ST-v2: Multipurpose Spoken Language Translation Toolkit

要約 ESPnet-ST-v2 は、音声言語翻訳コミュニティの関心の拡大によって … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | ESPnet-ST-v2: Multipurpose Spoken Language Translation Toolkit はコメントを受け付けていません

Gammatonegram Representation for End-to-End Dysarthric Speech Processing Tasks: Speech Recognition, Speaker Identification, and Intelligibility Assessment

要約 構音障害は、人間の音声システムに障害を引き起こし、音声の質と明瞭度を低下さ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Gammatonegram Representation for End-to-End Dysarthric Speech Processing Tasks: Speech Recognition, Speaker Identification, and Intelligibility Assessment はコメントを受け付けていません

Token-Level Serialized Output Training for Joint Streaming ASR and ST Leveraging Textual Alignments

要約 実際のアプリケーションでは、特に増分生成が必要なストリーミング シナリオで … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Token-Level Serialized Output Training for Joint Streaming ASR and ST Leveraging Textual Alignments はコメントを受け付けていません