「cs.SD」カテゴリーアーカイブ

SpeechComposer: Unifying Multiple Speech Tasks with Prompt Composition

投稿日: 2024年2月1日作成者: jarxiv

要約言語モデルの最近の進歩により、複数の音声関連タスクのパフォーマンスが大幅に … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Blind Audio Bandwidth Extension: A Diffusion-Based Zero-Shot Approach

投稿日: 2024年1月31日作成者: jarxiv

要約オーディオ帯域幅の拡張には、帯域制限された観測からの高周波スペクトルの現実 … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Textually Pretrained Speech Language Models

投稿日: 2024年1月31日作成者: jarxiv

要約音声言語モデル (SpeechLM) は、テキストによる監視なしで音響デー … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

SEF-VC: Speaker Embedding Free Zero-Shot Voice Conversion with Cross Attention

投稿日: 2024年1月31日作成者: jarxiv

要約ゼロショット音声変換 (VC) は、言語内容を変更せずに、ソーススピーカ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

A Proactive and Dual Prevention Mechanism against Illegal Song Covers empowered by Singing Voice Conversion

投稿日: 2024年1月31日作成者: jarxiv

要約歌声変換 (SVC) は、ある歌手の歌声を、元の歌詞とメロディーを備えた別 … 続きを読む →

カテゴリー: cs.AI, cs.CR, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

ESPnet-SPK: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models

投稿日: 2024年1月31日作成者: jarxiv

要約このペーパーでは、スピーカー埋め込み抽出器をトレーニングするためのいくつか … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Proactive Detection of Voice Cloning with Localized Watermarking

投稿日: 2024年1月31日作成者: jarxiv

要約急速に進化している音声生成モデルの分野では、音声複製のリスクに対して音声の … 続きを読む →

カテゴリー: cs.AI, cs.CR, cs.SD | コメントを受け付けていません

Scaling NVIDIA’s Multi-speaker Multi-lingual TTS Systems with Zero-Shot TTS to Indic Languages

投稿日: 2024年1月30日作成者: jarxiv

要約このペーパーでは、MMITS-VC (音声クローニングを備えたマルチスピー … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Synchformer: Efficient Synchronization from Sparse Cues

投稿日: 2024年1月30日作成者: jarxiv

要約私たちの目的は、同期キューがまばらな可能性がある YouTube などの「 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

MT-SLVR: Multi-Task Self-Supervised Learning for Transformation In(Variant) Representations

投稿日: 2024年1月29日作成者: jarxiv

要約対照的自己教師あり学習は、大規模なラベルなしデータセットから高品質の表現を … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

SpeechComposer: Unifying Multiple Speech Tasks with Prompt Composition

Blind Audio Bandwidth Extension: A Diffusion-Based Zero-Shot Approach

Textually Pretrained Speech Language Models

SEF-VC: Speaker Embedding Free Zero-Shot Voice Conversion with Cross Attention

A Proactive and Dual Prevention Mechanism against Illegal Song Covers empowered by Singing Voice Conversion

ESPnet-SPK: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models

Proactive Detection of Voice Cloning with Localized Watermarking

Scaling NVIDIA’s Multi-speaker Multi-lingual TTS Systems with Zero-Shot TTS to Indic Languages

Synchformer: Efficient Synchronization from Sparse Cues

MT-SLVR: Multi-Task Self-Supervised Learning for Transformation In(Variant) Representations

最近の投稿

最近のコメント

アーカイブ

カテゴリー