eess.AS」カテゴリーアーカイブ

Unsupervised speech enhancement with deep dynamical generative speech and noise models

要約 この研究は、クリーン音声モデルとして動的変分オートエンコーダ (DVAE) … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Unsupervised speech enhancement with deep dynamical generative speech and noise models はコメントを受け付けていません

Modality Adaption or Regularization? A Case Study on End-to-End Speech Translation

要約 事前トレーニングと微調整は、エンドツーエンド音声翻訳 (E2E ST) に … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Modality Adaption or Regularization? A Case Study on End-to-End Speech Translation はコメントを受け付けていません

PolyVoice: Language Models for Speech to Speech Translation

要約 私たちは、言語モデルベースの音声翻訳 (S2ST) システムのフレームワー … 続きを読む

カテゴリー: cs.CL, eess.AS | PolyVoice: Language Models for Speech to Speech Translation はコメントを受け付けていません

GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition

要約 Contrastive Language-Audio Pretrainin … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition はコメントを受け付けていません

Multimodal Audio-textual Architecture for Robust Spoken Language Understanding

要約 最近の音声アシスタントは通常、自動音声認識 (ASR) エンジンと自然言語 … 続きを読む

カテゴリー: cs.CL, cs.LG, eess.AS | Multimodal Audio-textual Architecture for Robust Spoken Language Understanding はコメントを受け付けていません

StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models

要約 この論文では、スタイルの拡散と大規模音声言語モデル (SLM) による敵対 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models はコメントを受け付けていません

Video-to-Music Recommendation using Temporal Alignment of Segments

要約 私たちは、ビデオのサウンドトラックとして使用される音楽トラックのクロスモー … 続きを読む

カテゴリー: cs.IR, cs.LG, cs.MM, cs.SD, eess.AS | Video-to-Music Recommendation using Temporal Alignment of Segments はコメントを受け付けていません

Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding

要約 私たちは、大規模言語モデル (LLM) にビデオ内の視覚コンテンツと聴覚コ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS | Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding はコメントを受け付けていません

DC CoMix TTS: An End-to-End Expressive TTS with Discrete Code Collaborated with Mixer

要約 中立的な TTS は大きな成功を収めましたが、コンテンツの漏洩は依然として … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | DC CoMix TTS: An End-to-End Expressive TTS with Discrete Code Collaborated with Mixer はコメントを受け付けていません

Multi-View Frequency-Attention Alternative to CNN Frontends for Automatic Speech Recognition

要約 畳み込みフロントエンドは、スペクトログラムを前処理し、シーケンスの長さを削 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Multi-View Frequency-Attention Alternative to CNN Frontends for Automatic Speech Recognition はコメントを受け付けていません