「cs.SD」カテゴリーアーカイブ

Audiovisual Masked Autoencoders

投稿日: 2024年1月5日作成者: jarxiv

要約自己教師付き表現学習を改善するために、ビデオに既に存在する視聴覚情報を活用 … 続きを読む →

カテゴリー: cs.CV, cs.SD | コメントを受け付けていません

Adversarial Representation Learning for Robust Privacy Preservation in Audio

投稿日: 2024年1月4日作成者: jarxiv

要約音イベント検出システムは、監視や環境モニタリングなどの様々なアプリケーショ … 続きを読む →

カテゴリー: cs.CR, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Utilizing Neural Transducers for Two-Stage Text-to-Speech via Semantic Token Prediction

投稿日: 2024年1月4日作成者: jarxiv

要約我々は、ニューラル変換器を中心とした新しいテキスト音声合成（TTS）フレー … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Hallucinations in Neural Automatic Speech Recognition: Identifying Errors and Hallucinatory Models

投稿日: 2024年1月4日作成者: jarxiv

要約幻覚は、ディープ・ニューラル・ネットワークが生み出す出力エラーの一種である … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Incremental FastPitch: Chunk-based High Quality Text to Speech

投稿日: 2024年1月4日作成者: jarxiv

要約並列音声合成モデルはリアルタイム音声合成に広く適用されており、従来の自動回 … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

CoMoSVC: Consistency Model-based Singing Voice Conversion

投稿日: 2024年1月4日作成者: jarxiv

要約拡散に基づく歌声変換(SVC)手法は、目標音色に類似した自然な音声を生成し … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

HAAQI-Net: A non-intrusive neural music quality assessment model for hearing aids

投稿日: 2024年1月3日作成者: jarxiv

要約この文書では、補聴器ユーザーに合わせた音楽品質評価のための非侵入型ディープ … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

OpenVoice: Versatile Instant Voice Cloning

投稿日: 2024年1月3日作成者: jarxiv

要約 OpenVoice を紹介します。OpenVoice は、基準話者の音声を … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Auffusion: Leveraging the Power of Diffusion and Large Language Models for Text-to-Audio Generation

投稿日: 2024年1月3日作成者: jarxiv

要約拡散モデルと大規模言語モデル (LLM) の最近の進歩により、AIGC の … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis

投稿日: 2024年1月3日作成者: jarxiv

要約ドメイン外 (OOD) 歌声合成 (SVS) のためのスタイル転送は、リフ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

Audiovisual Masked Autoencoders

Adversarial Representation Learning for Robust Privacy Preservation in Audio

Utilizing Neural Transducers for Two-Stage Text-to-Speech via Semantic Token Prediction

Hallucinations in Neural Automatic Speech Recognition: Identifying Errors and Hallucinatory Models

Incremental FastPitch: Chunk-based High Quality Text to Speech

CoMoSVC: Consistency Model-based Singing Voice Conversion

HAAQI-Net: A non-intrusive neural music quality assessment model for hearing aids

OpenVoice: Versatile Instant Voice Cloning

Auffusion: Leveraging the Power of Diffusion and Large Language Models for Text-to-Audio Generation

StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis

最近の投稿

最近のコメント

アーカイブ

カテゴリー