-
最近の投稿
- Multimodal Active Measurement for Human Mesh Recovery in Close Proximity
- An Algorithm for Distributed Computation of Reachable Sets for Multi-Agent Systems
- Meta-Learning Augmented MPC for Disturbance-Aware Motion Planning and Control of Quadrotors
- Solving Multi-Goal Robotic Tasks with Decision Transformer
- Context-Aware Command Understanding for Tabletop Scenarios
-
最近のコメント
表示できるコメントはありません。 cs.AI (27848) cs.CL (21045) cs.CR (2180) cs.CV (34554) cs.LG (32592) cs.RO (15968) cs.SY (2478) eess.IV (4238) eess.SY (2472) stat.ML (4364)
「cs.SD」カテゴリーアーカイブ
SpeechComposer: Unifying Multiple Speech Tasks with Prompt Composition
要約 言語モデルの最近の進歩により、複数の音声関連タスクのパフォーマンスが大幅に … 続きを読む
Blind Audio Bandwidth Extension: A Diffusion-Based Zero-Shot Approach
要約 オーディオ帯域幅の拡張には、帯域制限された観測からの高周波スペクトルの現実 … 続きを読む
Textually Pretrained Speech Language Models
要約 音声言語モデル (SpeechLM) は、テキストによる監視なしで音響デー … 続きを読む
SEF-VC: Speaker Embedding Free Zero-Shot Voice Conversion with Cross Attention
要約 ゼロショット音声変換 (VC) は、言語内容を変更せずに、ソース スピーカ … 続きを読む
A Proactive and Dual Prevention Mechanism against Illegal Song Covers empowered by Singing Voice Conversion
要約 歌声変換 (SVC) は、ある歌手の歌声を、元の歌詞とメロディーを備えた別 … 続きを読む
ESPnet-SPK: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models
要約 このペーパーでは、スピーカー埋め込み抽出器をトレーニングするためのいくつか … 続きを読む
Proactive Detection of Voice Cloning with Localized Watermarking
要約 急速に進化している音声生成モデルの分野では、音声複製のリスクに対して音声の … 続きを読む
Scaling NVIDIA’s Multi-speaker Multi-lingual TTS Systems with Zero-Shot TTS to Indic Languages
要約 このペーパーでは、MMITS-VC (音声クローニングを備えたマルチスピー … 続きを読む
Synchformer: Efficient Synchronization from Sparse Cues
要約 私たちの目的は、同期キューがまばらな可能性がある YouTube などの「 … 続きを読む
MT-SLVR: Multi-Task Self-Supervised Learning for Transformation In(Variant) Representations
要約 対照的自己教師あり学習は、大規模なラベルなしデータセットから高品質の表現を … 続きを読む