-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Scaling Speech-Text Pre-training with Synthetic Interleaved Data
要約 音声言語モデル (SpeechLM) は、音声入力を受け入れて音声出力を生 … 続きを読む
End-to-End Supervised Hierarchical Graph Clustering for Speaker Diarization
要約 話者ダイアライゼーションは、話者のアイデンティティに基づいてオーディオ録音 … 続きを読む
Unsupervised Speaker Diarization in Distributed IoT Networks Using Federated Learning
要約 このペーパーでは、ネットワーク化された IoT スタイルのオーディオ デバ … 続きを読む
Noro: A Noise-Robust One-shot Voice Conversion System with Hidden Speaker Representation Capabilities
要約 ワンショット音声変換 (VC) は、元のソース音声の意味内容を保持しながら … 続きを読む
Zero-shot Musical Stem Retrieval with Joint-Embedding Predictive Architectures
要約 この論文では、音楽幹の検索のタスクに取り組みます。 音楽ミックスが与えられ … 続きを読む
Scaling Transformers for Low-Bitrate High-Quality Speech Coding
要約 ニューラル オーディオ コーデック モデルを使用した音声のトークン化は、単 … 続きを読む
Multiple Choice Learning for Efficient Speech Separation with Many Speakers
要約 教師付き設定で音声分離モデルをトレーニングすると、モデルの予測とグラウンド … 続きを読む
How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario
要約 音声の自己教師あり学習 (SSL) モデルを利用すると、自動音声認識 (A … 続きを読む
Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model
要約 オーディオ生成における最近の進歩は、大規模言語モデル (LLM) の機能に … 続きを読む
Inter-linguistic Phonetic Composition (IPC): A Theoretical and Computational Approach to Enhance Second Language Pronunciation
要約 第 2 言語 (L2) の学習者は、L2 の母語話者がこれらの音を別個で交 … 続きを読む