「cs.SD」カテゴリーアーカイブ

OmniChat: Enhancing Spoken Dialogue Systems with Scalable Synthetic Data for Diverse Scenarios

投稿日: 2025年1月5日作成者: jarxiv

要約大規模な言語モデルの急速な発展により、研究者は人間と自然に会話できる高度な … 続きを読む →

カテゴリー: cs.CL, cs.HC, cs.SD, eess.AS | コメントを受け付けていません

Audio Array-Based 3D UAV Trajectory Estimation with LiDAR Pseudo-Labeling

投稿日: 2025年1月3日作成者: jarxiv

要約小型無人航空機 (UAV) の普及が進むにつれ、公共の安全とプライバシーへ … 続きを読む →

カテゴリー: cs.RO, cs.SD, eess.AS | コメントを受け付けていません

RiTTA: Modeling Event Relations in Text-to-Audio Generation

投稿日: 2025年1月3日作成者: jarxiv

要約 Text-to-Audio (TTA) 生成モデルは大幅に進歩し、詳細なコ … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Towards Expressive Video Dubbing with Multiscale Multimodal Context Interaction

投稿日: 2025年1月3日作成者: jarxiv

要約自動ビデオダビング (AVD) は、スクリプトから唇の動きと顔の感情に合 … 続きを読む →

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Text2midi: Generating Symbolic Music from Captions

投稿日: 2025年1月3日作成者: jarxiv

要約この文書では、テキスト記述から MIDI ファイルを生成するエンドツーエン … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning

投稿日: 2025年1月3日作成者: jarxiv

要約大規模音声言語モデル (LALM) の最近の進歩により、音声および音声情報 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

An investigation of phrase break prediction in an End-to-End TTS system

投稿日: 2025年1月3日作成者: jarxiv

要約目的: この研究では、エンドツーエンドの Text-to-Speech ( … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement

投稿日: 2025年1月3日作成者: jarxiv

要約最近の音声強調 (SE) 研究では、トランスフォーマーとその変種が主要な方 … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Stable-V2A: Synthesis of Synchronized Sound Effects with Temporal and Semantic Controls

投稿日: 2025年1月3日作成者: jarxiv

要約サウンドデザイナーやフォーリーアーティストは通常、ビデオ内の関心の … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Improving Generalization for AI-Synthesized Voice Detection

投稿日: 2024年12月31日作成者: jarxiv

要約 AI 合成音声テクノロジーは、有益な用途のためにリアルな人間の声を作成でき … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

OmniChat: Enhancing Spoken Dialogue Systems with Scalable Synthetic Data for Diverse Scenarios

Audio Array-Based 3D UAV Trajectory Estimation with LiDAR Pseudo-Labeling

RiTTA: Modeling Event Relations in Text-to-Audio Generation

Towards Expressive Video Dubbing with Multiscale Multimodal Context Interaction

Text2midi: Generating Symbolic Music from Captions

Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning

An investigation of phrase break prediction in an End-to-End TTS system

Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement

Stable-V2A: Synthesis of Synchronized Sound Effects with Temporal and Semantic Controls

Improving Generalization for AI-Synthesized Voice Detection

最近の投稿

最近のコメント

アーカイブ

カテゴリー