「cs.SD」カテゴリーアーカイブ

Video Background Music Generation: Dataset, Method and Evaluation

投稿日: 2023年8月7日作成者: jarxiv

要約動画編集に音楽は欠かせないが、手作業で選曲するのは難しく、時間もかかる。そ … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Careful Whisper — leveraging advances in automatic speech recognition for robust and interpretable aphasia subtype classification

投稿日: 2023年8月4日作成者: jarxiv

要約本論文では、音声障害の評価を支援するために、音声記録から音声異常を特定する … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

SALTTS: Leveraging Self-Supervised Speech Representations for improved Text-to-Speech Synthesis

投稿日: 2023年8月3日作成者: jarxiv

要約 FastSpeech2 は、ピッチ、エネルギー、長さなどの音声の側面を条件 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Vistaar: Diverse Benchmarks and Training Sets for Indian Language ASR

投稿日: 2023年8月3日作成者: jarxiv

要約新しい LLM ベースのユースケースを世界中の人々が利用できるようにするに … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis

投稿日: 2023年8月3日作成者: jarxiv

要約私たちは、新しいタスク、つまり、低リソースのテキストで会話するアバターに興 … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Privacy against Real-Time Speech Emotion Detection via Acoustic Adversarial Evasion of Machine Learning

投稿日: 2023年8月2日作成者: jarxiv

要約 Amazon Echo や Google Home などのスマートスピー … 続きを読む →

カテゴリー: cs.CR, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Chat with the Environment: Interactive Multimodal Perception Using Large Language Models

投稿日: 2023年8月2日作成者: jarxiv

要約複雑な世界でロボットの動作をプログラミングするには、器用な低レベルのスキル … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.RO, cs.SD, eess.AS | コメントを受け付けていません

Audio-Visual Segmentation by Exploring Cross-Modal Mutual Semantics

投稿日: 2023年8月2日作成者: jarxiv

要約オーディオビジュアルセグメンテーション (AVS) タスクは、特定のビデ … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

DiffProsody: Diffusion-based Latent Prosody Generation for Expressive Speech Synthesis with Prosody Conditional Adversarial Training

投稿日: 2023年8月1日作成者: jarxiv

要約表現力豊かなテキスト読み上げシステムは、韻律モデリングにより大幅な進歩を遂 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Deep Transfer Learning for Automatic Speech Recognition: Towards Better Generalization

投稿日: 2023年8月1日作成者: jarxiv

要約自動音声認識 (ASR) は、最近、深層学習 (DL) を使用する際の重要 … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

Video Background Music Generation: Dataset, Method and Evaluation

Careful Whisper — leveraging advances in automatic speech recognition for robust and interpretable aphasia subtype classification

SALTTS: Leveraging Self-Supervised Speech Representations for improved Text-to-Speech Synthesis

Vistaar: Diverse Benchmarks and Training Sets for Indian Language ASR

Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis

Privacy against Real-Time Speech Emotion Detection via Acoustic Adversarial Evasion of Machine Learning

Chat with the Environment: Interactive Multimodal Perception Using Large Language Models

Audio-Visual Segmentation by Exploring Cross-Modal Mutual Semantics

DiffProsody: Diffusion-based Latent Prosody Generation for Expressive Speech Synthesis with Prosody Conditional Adversarial Training

Deep Transfer Learning for Automatic Speech Recognition: Towards Better Generalization

最近の投稿

最近のコメント

アーカイブ

カテゴリー