eess.AS」カテゴリーアーカイブ

StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models

要約 この論文では、スタイルの拡散と大規模音声言語モデル (SLM) による敵対 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models はコメントを受け付けていません

Video-to-Music Recommendation using Temporal Alignment of Segments

要約 私たちは、ビデオのサウンドトラックとして使用される音楽トラックのクロスモー … 続きを読む

カテゴリー: cs.IR, cs.LG, cs.MM, cs.SD, eess.AS | Video-to-Music Recommendation using Temporal Alignment of Segments はコメントを受け付けていません

Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding

要約 私たちは、大規模言語モデル (LLM) にビデオ内の視覚コンテンツと聴覚コ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS | Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding はコメントを受け付けていません

DC CoMix TTS: An End-to-End Expressive TTS with Discrete Code Collaborated with Mixer

要約 中立的な TTS は大きな成功を収めましたが、コンテンツの漏洩は依然として … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | DC CoMix TTS: An End-to-End Expressive TTS with Discrete Code Collaborated with Mixer はコメントを受け付けていません

Multi-View Frequency-Attention Alternative to CNN Frontends for Automatic Speech Recognition

要約 畳み込みフロントエンドは、スペクトログラムを前処理し、シーケンスの長さを削 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Multi-View Frequency-Attention Alternative to CNN Frontends for Automatic Speech Recognition はコメントを受け付けていません

Exploring Attention Mechanisms for Multimodal Emotion Recognition in an Emergency Call Center Corpus

要約 人間の意思決定を強化する感情検出テクノロジーは、現実世界のアプリケーション … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Exploring Attention Mechanisms for Multimodal Emotion Recognition in an Emergency Call Center Corpus はコメントを受け付けていません

Speaker Embeddings as Individuality Proxy for Voice Stress Detection

要約 話者の精神状態が音声を調整するため、認知的または身体的負荷によってもたらさ … 続きを読む

カテゴリー: cs.LG, eess.AS | Speaker Embeddings as Individuality Proxy for Voice Stress Detection はコメントを受け付けていません

EmotionNAS: Two-stream Neural Architecture Search for Speech Emotion Recognition

要約 音声感情認識 (SER) は、人間とコンピューターの対話における重要な研究 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | EmotionNAS: Two-stream Neural Architecture Search for Speech Emotion Recognition はコメントを受け付けていません

Reconstructing Human Expressiveness in Piano Performances with a Transformer Network

要約 コンピュータによるアプローチを使用して、音楽演奏における人間の表現力の複雑 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Reconstructing Human Expressiveness in Piano Performances with a Transformer Network はコメントを受け付けていません

Low-rank Adaptation Method for Wav2vec2-based Fake Audio Detection

要約 自己教師あり音声モデルは、偽音声検出において急速に発展している研究トピック … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Low-rank Adaptation Method for Wav2vec2-based Fake Audio Detection はコメントを受け付けていません