-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
Zero-shot Musical Stem Retrieval with Joint-Embedding Predictive Architectures
要約 この論文では、音楽幹の検索のタスクに取り組みます。 音楽ミックスが与えられ … 続きを読む
Scaling Transformers for Low-Bitrate High-Quality Speech Coding
要約 ニューラル オーディオ コーデック モデルを使用した音声のトークン化は、単 … 続きを読む
Multiple Choice Learning for Efficient Speech Separation with Many Speakers
要約 教師付き設定で音声分離モデルをトレーニングすると、モデルの予測とグラウンド … 続きを読む
How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario
要約 音声の自己教師あり学習 (SSL) モデルを利用すると、自動音声認識 (A … 続きを読む
Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model
要約 オーディオ生成における最近の進歩は、大規模言語モデル (LLM) の機能に … 続きを読む
Inter-linguistic Phonetic Composition (IPC): A Theoretical and Computational Approach to Enhance Second Language Pronunciation
要約 第 2 言語 (L2) の学習者は、L2 の母語話者がこれらの音を別個で交 … 続きを読む
A Suite for Acoustic Language Model Evaluation
要約 音声言語モデルは最近、汎用音声処理システムとして大きな可能性を示しています … 続きを読む
Continuous Autoregressive Models with Noise Augmentation Avoid Error Accumulation
要約 自己回帰モデルは通常、離散トークンのシーケンスに適用されますが、最近の研究 … 続きを読む
Learning Spatially-Aware Language and Audio Embeddings
要約 人間は、不正確な自然言語記述が与えられたとしても、音のシーンを思い描くこと … 続きを読む