cs.SD」カテゴリーアーカイブ

SpeechComposer: Unifying Multiple Speech Tasks with Prompt Composition

要約 言語モデルの最近の進歩により、複数の音声関連タスクのパフォーマンスが大幅に … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | SpeechComposer: Unifying Multiple Speech Tasks with Prompt Composition はコメントを受け付けていません

Blind Audio Bandwidth Extension: A Diffusion-Based Zero-Shot Approach

要約 オーディオ帯域幅の拡張には、帯域制限された観測からの高周波スペクトルの現実 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Blind Audio Bandwidth Extension: A Diffusion-Based Zero-Shot Approach はコメントを受け付けていません

Textually Pretrained Speech Language Models

要約 音声言語モデル (SpeechLM) は、テキストによる監視なしで音響デー … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Textually Pretrained Speech Language Models はコメントを受け付けていません

SEF-VC: Speaker Embedding Free Zero-Shot Voice Conversion with Cross Attention

要約 ゼロショット音声変換 (VC) は、言語内容を変更せずに、ソース スピーカ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | SEF-VC: Speaker Embedding Free Zero-Shot Voice Conversion with Cross Attention はコメントを受け付けていません

A Proactive and Dual Prevention Mechanism against Illegal Song Covers empowered by Singing Voice Conversion

要約 歌声変換 (SVC) は、ある歌手の歌声を、元の歌詞とメロディーを備えた別 … 続きを読む

カテゴリー: cs.AI, cs.CR, cs.LG, cs.MM, cs.SD, eess.AS | A Proactive and Dual Prevention Mechanism against Illegal Song Covers empowered by Singing Voice Conversion はコメントを受け付けていません

ESPnet-SPK: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models

要約 このペーパーでは、スピーカー埋め込み抽出器をトレーニングするためのいくつか … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | ESPnet-SPK: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models はコメントを受け付けていません

Proactive Detection of Voice Cloning with Localized Watermarking

要約 急速に進化している音声生成モデルの分野では、音声複製のリスクに対して音声の … 続きを読む

カテゴリー: cs.AI, cs.CR, cs.SD | Proactive Detection of Voice Cloning with Localized Watermarking はコメントを受け付けていません

Scaling NVIDIA’s Multi-speaker Multi-lingual TTS Systems with Zero-Shot TTS to Indic Languages

要約 このペーパーでは、MMITS-VC (音声クローニングを備えたマルチスピー … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Scaling NVIDIA’s Multi-speaker Multi-lingual TTS Systems with Zero-Shot TTS to Indic Languages はコメントを受け付けていません

Synchformer: Efficient Synchronization from Sparse Cues

要約 私たちの目的は、同期キューがまばらな可能性がある YouTube などの「 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | Synchformer: Efficient Synchronization from Sparse Cues はコメントを受け付けていません

MT-SLVR: Multi-Task Self-Supervised Learning for Transformation In(Variant) Representations

要約 対照的自己教師あり学習は、大規模なラベルなしデータセットから高品質の表現を … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | MT-SLVR: Multi-Task Self-Supervised Learning for Transformation In(Variant) Representations はコメントを受け付けていません