eess.AS」カテゴリーアーカイブ

An analysis on the effects of speaker embedding choice in non auto-regressive TTS

要約 この論文では、非自己回帰因数分解マルチ話者音声合成アーキテクチャが、さまざ … 続きを読む

カテゴリー: cs.AI, eess.AS | An analysis on the effects of speaker embedding choice in non auto-regressive TTS はコメントを受け付けていません

Temporal Label-Refinement for Weakly-Supervised Audio-Visual Event Localization

要約 オーディオビジュアル イベント ローカライゼーション (AVEL) は、 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | Temporal Label-Refinement for Weakly-Supervised Audio-Visual Event Localization はコメントを受け付けていません

SLMGAN: Exploiting Speech Language Model Representations for Unsupervised Zero-Shot Voice Conversion in GANs

要約 近年、大規模な事前トレーニング済み音声言語モデル (SLM) により、テキ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | SLMGAN: Exploiting Speech Language Model Representations for Unsupervised Zero-Shot Voice Conversion in GANs はコメントを受け付けていません

FlexiAST: Flexibility is What AST Needs

要約 この作業の目的は、オーディオ スペクトログラム トランスフォーマー (AS … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | FlexiAST: Flexibility is What AST Needs はコメントを受け付けていません

Model Adaptation for ASR in low-resource Indian Languages

要約 自動音声認識 (ASR) のパフォーマンスは、主に wav2vec2 など … 続きを読む

カテゴリー: cs.CL, eess.AS | Model Adaptation for ASR in low-resource Indian Languages はコメントを受け付けていません

BASS: Block-wise Adaptation for Speech Summarization

要約 エンドツーエンドの音声要約は、カスケード ベースラインよりもパフォーマンス … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | BASS: Block-wise Adaptation for Speech Summarization はコメントを受け付けていません

Multilingual Speech-to-Speech Translation into Multiple Target Languages

要約 Speech-to-Speech Translation (S2ST) に … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Multilingual Speech-to-Speech Translation into Multiple Target Languages はコメントを受け付けていません

Semi-supervised cross-lingual speech emotion recognition

要約 単一言語での音声感情認識 (SER) のパフォーマンスは、深層学習技術の使 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Semi-supervised cross-lingual speech emotion recognition はコメントを受け付けていません

Leveraging Pretrained ASR Encoders for Effective and Efficient End-to-End Speech Intent Classification and Slot Filling

要約 私たちは、音声認識 (ASR) で事前トレーニングされたエンコーダを使用し … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS | Leveraging Pretrained ASR Encoders for Effective and Efficient End-to-End Speech Intent Classification and Slot Filling はコメントを受け付けていません

The CHiME-7 DASR Challenge: Distant Meeting Transcription with Multiple Devices in Diverse Scenarios

要約 CHiME の課題は、堅牢な自動音声認識 (ASR) システムの開発と評価 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | The CHiME-7 DASR Challenge: Distant Meeting Transcription with Multiple Devices in Diverse Scenarios はコメントを受け付けていません