-
最近の投稿
- RT-cache: Efficient Robot Trajectory Retrieval System
- Reach-Avoid-Stabilize Using Admissible Control Sets
- Solving Reach- and Stabilize-Avoid Problems Using Discounted Reachability
- A Novel 6-axis Force/Torque Sensor Using Inductance Sensors
- Deployable and Generalizable Motion Prediction: Taxonomy, Open Challenges and Future Directions
-
最近のコメント
表示できるコメントはありません。 cs.AI (38110) cs.CL (28797) cs.CV (43686) cs.HC (2911) cs.LG (43032) cs.RO (22672) cs.SY (3480) eess.IV (5065) eess.SY (3472) stat.ML (5604)
「cs.SD」カテゴリーアーカイブ
Noro: A Noise-Robust One-shot Voice Conversion System with Hidden Speaker Representation Capabilities
要約 ワンショット音声変換 (VC) は、元のソース音声の意味内容を保持しながら … 続きを読む
Zero-shot Musical Stem Retrieval with Joint-Embedding Predictive Architectures
要約 この論文では、音楽幹の検索のタスクに取り組みます。 音楽ミックスが与えられ … 続きを読む
Scaling Transformers for Low-Bitrate High-Quality Speech Coding
要約 ニューラル オーディオ コーデック モデルを使用した音声のトークン化は、単 … 続きを読む
Multiple Choice Learning for Efficient Speech Separation with Many Speakers
要約 教師付き設定で音声分離モデルをトレーニングすると、モデルの予測とグラウンド … 続きを読む
How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario
要約 音声の自己教師あり学習 (SSL) モデルを利用すると、自動音声認識 (A … 続きを読む
Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model
要約 オーディオ生成における最近の進歩は、大規模言語モデル (LLM) の機能に … 続きを読む
Inter-linguistic Phonetic Composition (IPC): A Theoretical and Computational Approach to Enhance Second Language Pronunciation
要約 第 2 言語 (L2) の学習者は、L2 の母語話者がこれらの音を別個で交 … 続きを読む
A Suite for Acoustic Language Model Evaluation
要約 音声言語モデルは最近、汎用音声処理システムとして大きな可能性を示しています … 続きを読む
Continuous Autoregressive Models with Noise Augmentation Avoid Error Accumulation
要約 自己回帰モデルは通常、離散トークンのシーケンスに適用されますが、最近の研究 … 続きを読む
Learning Spatially-Aware Language and Audio Embeddings
要約 人間は、不正確な自然言語記述が与えられたとしても、音のシーンを思い描くこと … 続きを読む