eess.AS」カテゴリーアーカイブ

Text2midi: Generating Symbolic Music from Captions

要約 この文書では、テキスト記述から MIDI ファイルを生成するエンドツーエン … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Text2midi: Generating Symbolic Music from Captions はコメントを受け付けていません

Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning

要約 大規模音声言語モデル (LALM) の最近の進歩により、音声および音声情報 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning はコメントを受け付けていません

An investigation of phrase break prediction in an End-to-End TTS system

要約 目的: この研究では、エンドツーエンドの Text-to-Speech ( … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | An investigation of phrase break prediction in an End-to-End TTS system はコメントを受け付けていません

Speech Retrieval-Augmented Generation without Automatic Speech Recognition

要約 音声データに対する質問応答の一般的なアプローチの 1 つは、最初に自動音声 … 続きを読む

カテゴリー: cs.AI, cs.CL, eess.AS | Speech Retrieval-Augmented Generation without Automatic Speech Recognition はコメントを受け付けていません

Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement

要約 最近の音声強調 (SE) 研究では、トランスフォーマーとその変種が主要な方 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement はコメントを受け付けていません

Personalized Lip Reading: Adapting to Your Unique Lip Movements with Vision and Language

要約 読唇術は、唇の動きを分析することで話し言葉を予測することを目的としています … 続きを読む

カテゴリー: cs.CL, cs.CV, eess.AS, eess.IV | Personalized Lip Reading: Adapting to Your Unique Lip Movements with Vision and Language はコメントを受け付けていません

Stable-V2A: Synthesis of Synchronized Sound Effects with Temporal and Semantic Controls

要約 サウンド デザイナーやフォーリー アーティストは通常​​、ビデオ内の関心の … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | Stable-V2A: Synthesis of Synchronized Sound Effects with Temporal and Semantic Controls はコメントを受け付けていません

Improving Generalization for AI-Synthesized Voice Detection

要約 AI 合成音声テクノロジーは、有益な用途のためにリアルな人間の声を作成でき … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Improving Generalization for AI-Synthesized Voice Detection はコメントを受け付けていません

A Modular-based Strategy for Mitigating Gradient Conflicts in Simultaneous Speech Translation

要約 同時音声翻訳 (SimulST) では、ストリーミング音声入力を継続的に処 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | A Modular-based Strategy for Mitigating Gradient Conflicts in Simultaneous Speech Translation はコメントを受け付けていません

Enhancing Multimodal Emotion Recognition through Multi-Granularity Cross-Modal Alignment

要約 音声とテキストを活用するマルチモーダル感情認識 (MER) は、人間とコン … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Enhancing Multimodal Emotion Recognition through Multi-Granularity Cross-Modal Alignment はコメントを受け付けていません