cs.SD」カテゴリーアーカイブ

Vistaar: Diverse Benchmarks and Training Sets for Indian Language ASR

要約 新しい LLM ベースのユースケースを世界中の人々が利用できるようにするに … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Vistaar: Diverse Benchmarks and Training Sets for Indian Language ASR はコメントを受け付けていません

Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis

要約 私たちは、新しいタスク、つまり、低リソースのテキストで会話するアバターに興 … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis はコメントを受け付けていません

Privacy against Real-Time Speech Emotion Detection via Acoustic Adversarial Evasion of Machine Learning

要約 Amazon Echo や Google Home などのスマート スピー … 続きを読む

カテゴリー: cs.CR, cs.LG, cs.SD, eess.AS | Privacy against Real-Time Speech Emotion Detection via Acoustic Adversarial Evasion of Machine Learning はコメントを受け付けていません

Chat with the Environment: Interactive Multimodal Perception Using Large Language Models

要約 複雑な世界でロボットの動作をプログラミングするには、器用な低レベルのスキル … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.RO, cs.SD, eess.AS | Chat with the Environment: Interactive Multimodal Perception Using Large Language Models はコメントを受け付けていません

Audio-Visual Segmentation by Exploring Cross-Modal Mutual Semantics

要約 オーディオビジュアル セグメンテーション (AVS) タスクは、特定のビデ … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Audio-Visual Segmentation by Exploring Cross-Modal Mutual Semantics はコメントを受け付けていません

DiffProsody: Diffusion-based Latent Prosody Generation for Expressive Speech Synthesis with Prosody Conditional Adversarial Training

要約 表現力豊かなテキスト読み上げシステムは、韻律モデリングにより大幅な進歩を遂 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | DiffProsody: Diffusion-based Latent Prosody Generation for Expressive Speech Synthesis with Prosody Conditional Adversarial Training はコメントを受け付けていません

Deep Transfer Learning for Automatic Speech Recognition: Towards Better Generalization

要約 自動音声認識 (ASR) は、最近、深層学習 (DL) を使用する際の重要 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Deep Transfer Learning for Automatic Speech Recognition: Towards Better Generalization はコメントを受け付けていません

Contrastive Conditional Latent Diffusion for Audio-visual Segmentation

要約 我々は、オーディオの寄与を広範囲に調査するために、オーディオビジュアルセグ … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Contrastive Conditional Latent Diffusion for Audio-visual Segmentation はコメントを受け付けていません

Audio-visual video-to-speech synthesis with synthesized input audio

要約 ビデオ音声合成では、サイレント ビデオから話者の音声信号を再構築します。 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | Audio-visual video-to-speech synthesis with synthesized input audio はコメントを受け付けていません

Large-scale unsupervised audio pre-training for video-to-speech synthesis

要約 ビデオ音声合成は、話者の無声ビデオから音声信号を再構築するタスクです。 こ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | Large-scale unsupervised audio pre-training for video-to-speech synthesis はコメントを受け付けていません