「eess.AS」カテゴリーアーカイブ

Chat with the Environment: Interactive Multimodal Perception Using Large Language Models

投稿日: 2023年8月2日作成者: jarxiv

要約複雑な世界でロボットの動作をプログラミングするには、器用な低レベルのスキル … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.RO, cs.SD, eess.AS | コメントを受け付けていません

Audio-Visual Segmentation by Exploring Cross-Modal Mutual Semantics

投稿日: 2023年8月2日作成者: jarxiv

要約オーディオビジュアルセグメンテーション (AVS) タスクは、特定のビデ … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

DiffProsody: Diffusion-based Latent Prosody Generation for Expressive Speech Synthesis with Prosody Conditional Adversarial Training

投稿日: 2023年8月1日作成者: jarxiv

要約表現力豊かなテキスト読み上げシステムは、韻律モデリングにより大幅な進歩を遂 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Deep Transfer Learning for Automatic Speech Recognition: Towards Better Generalization

投稿日: 2023年8月1日作成者: jarxiv

要約自動音声認識 (ASR) は、最近、深層学習 (DL) を使用する際の重要 … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Improving grapheme-to-phoneme conversion by learning pronunciations from speech recordings

投稿日: 2023年8月1日作成者: jarxiv

要約 Grapheme-to-Phoneme (G2P) タスクは、正書法入力を … 続きを読む →

カテゴリー: cs.CL, eess.AS | コメントを受け付けていません

Comparing normalizing flows and diffusion models for prosody and acoustic modelling in text-to-speech

投稿日: 2023年8月1日作成者: jarxiv

要約ニューラルテキスト読み上げシステムは、多くの場合、L1/L2 損失に基づ … 続きを読む →

カテゴリー: cs.CL, cs.LG, eess.AS | コメントを受け付けていません

Multilingual context-based pronunciation learning for Text-to-Speech

投稿日: 2023年8月1日作成者: jarxiv

要約音声情報と言語知識は、音声合成 (TTS) フロントエンドの重要なコンポー … 続きを読む →

カテゴリー: cs.CL, eess.AS | コメントを受け付けていません

Contrastive Conditional Latent Diffusion for Audio-visual Segmentation

投稿日: 2023年8月1日作成者: jarxiv

要約我々は、オーディオの寄与を広範囲に調査するために、オーディオビジュアルセグ … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Audio-visual video-to-speech synthesis with synthesized input audio

投稿日: 2023年8月1日作成者: jarxiv

要約ビデオ音声合成では、サイレントビデオから話者の音声信号を再構築します。 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Large-scale unsupervised audio pre-training for video-to-speech synthesis

投稿日: 2023年8月1日作成者: jarxiv

要約ビデオ音声合成は、話者の無声ビデオから音声信号を再構築するタスクです。こ … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

Chat with the Environment: Interactive Multimodal Perception Using Large Language Models

Audio-Visual Segmentation by Exploring Cross-Modal Mutual Semantics

DiffProsody: Diffusion-based Latent Prosody Generation for Expressive Speech Synthesis with Prosody Conditional Adversarial Training

Deep Transfer Learning for Automatic Speech Recognition: Towards Better Generalization

Improving grapheme-to-phoneme conversion by learning pronunciations from speech recordings

Comparing normalizing flows and diffusion models for prosody and acoustic modelling in text-to-speech

Multilingual context-based pronunciation learning for Text-to-Speech

Contrastive Conditional Latent Diffusion for Audio-visual Segmentation

Audio-visual video-to-speech synthesis with synthesized input audio

Large-scale unsupervised audio pre-training for video-to-speech synthesis

最近の投稿

最近のコメント

アーカイブ

カテゴリー