-
最近の投稿
- Multimodal Active Measurement for Human Mesh Recovery in Close Proximity
- An Algorithm for Distributed Computation of Reachable Sets for Multi-Agent Systems
- Meta-Learning Augmented MPC for Disturbance-Aware Motion Planning and Control of Quadrotors
- Solving Multi-Goal Robotic Tasks with Decision Transformer
- Context-Aware Command Understanding for Tabletop Scenarios
-
最近のコメント
表示できるコメントはありません。 cs.AI (27848) cs.CL (21045) cs.CR (2180) cs.CV (34554) cs.LG (32592) cs.RO (15968) cs.SY (2478) eess.IV (4238) eess.SY (2472) stat.ML (4364)
「eess.AS」カテゴリーアーカイブ
Do self-supervised speech and language models extract similar representations as human brain?
要約 自己教師あり学習 (SSL) を通じてトレーニングされた音声および言語モデ … 続きを読む
Revisiting speech segmentation and lexicon learning with better features
要約 ラベルのない音声を単語のようなセグメントに分割する自己教師ありの方法を再検 … 続きを読む
SpeechComposer: Unifying Multiple Speech Tasks with Prompt Composition
要約 言語モデルの最近の進歩により、複数の音声関連タスクのパフォーマンスが大幅に … 続きを読む
Blind Audio Bandwidth Extension: A Diffusion-Based Zero-Shot Approach
要約 オーディオ帯域幅の拡張には、帯域制限された観測からの高周波スペクトルの現実 … 続きを読む
Textually Pretrained Speech Language Models
要約 音声言語モデル (SpeechLM) は、テキストによる監視なしで音響デー … 続きを読む
SEF-VC: Speaker Embedding Free Zero-Shot Voice Conversion with Cross Attention
要約 ゼロショット音声変換 (VC) は、言語内容を変更せずに、ソース スピーカ … 続きを読む
A Proactive and Dual Prevention Mechanism against Illegal Song Covers empowered by Singing Voice Conversion
要約 歌声変換 (SVC) は、ある歌手の歌声を、元の歌詞とメロディーを備えた別 … 続きを読む
ESPnet-SPK: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models
要約 このペーパーでは、スピーカー埋め込み抽出器をトレーニングするためのいくつか … 続きを読む
Scaling NVIDIA’s Multi-speaker Multi-lingual TTS Systems with Zero-Shot TTS to Indic Languages
要約 このペーパーでは、MMITS-VC (音声クローニングを備えたマルチスピー … 続きを読む