-
最近の投稿
- A Hierarchical Reinforcement Learning Framework for Multi-UAV Combat Using Leader-Follower Strategy
- A 65 nm Bayesian Neural Network Accelerator with 360 fJ/Sample In-Word GRNG for AI Uncertainty Estimation
- Map Prediction and Generative Entropy for Multi-Agent Exploration
- Polyhedral Collision Detection via Vertex Enumeration
- Safe and Efficient Robot Action Planning in the Presence of Unconcerned Humans
-
最近のコメント
表示できるコメントはありません。 cs.AI (32657) cs.CL (24688) cs.CR (2523) cs.CV (38845) cs.LG (37527) cs.RO (19009) cs.SY (2906) eess.IV (4656) eess.SY (2900) stat.ML (4944)
「cs.SD」カテゴリーアーカイブ
TTSDS — Text-to-Speech Distribution Score
要約 最近公開された Text-to-Speech (TTS) システムの多くは … 続きを読む
Scaling Speech-Text Pre-training with Synthetic Interleaved Data
要約 音声言語モデル (SpeechLM) は、音声入力を受け入れて音声出力を生 … 続きを読む
End-to-End Supervised Hierarchical Graph Clustering for Speaker Diarization
要約 話者ダイアライゼーションは、話者のアイデンティティに基づいてオーディオ録音 … 続きを読む
Unsupervised Speaker Diarization in Distributed IoT Networks Using Federated Learning
要約 このペーパーでは、ネットワーク化された IoT スタイルのオーディオ デバ … 続きを読む
Noro: A Noise-Robust One-shot Voice Conversion System with Hidden Speaker Representation Capabilities
要約 ワンショット音声変換 (VC) は、元のソース音声の意味内容を保持しながら … 続きを読む
Zero-shot Musical Stem Retrieval with Joint-Embedding Predictive Architectures
要約 この論文では、音楽幹の検索のタスクに取り組みます。 音楽ミックスが与えられ … 続きを読む
Scaling Transformers for Low-Bitrate High-Quality Speech Coding
要約 ニューラル オーディオ コーデック モデルを使用した音声のトークン化は、単 … 続きを読む
Multiple Choice Learning for Efficient Speech Separation with Many Speakers
要約 教師付き設定で音声分離モデルをトレーニングすると、モデルの予測とグラウンド … 続きを読む
How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario
要約 音声の自己教師あり学習 (SSL) モデルを利用すると、自動音声認識 (A … 続きを読む