-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
I Know You’re Listening: Adaptive Voice for HRI
要約 言語教育のためのソーシャルロボットの使用が調査されていますが、言語教育ロボ … 続きを読む
Diff-TONE: Timestep Optimization for iNstrument Editing in Text-to-Music Diffusion Models
要約 テキストから音楽の生成モデルのブレークスルーは、創造的な状況を変えており、 … 続きを読む
Factorized RVQ-GAN For Disentangled Speech Tokenization
要約 単一のモデルでボトルネックを3つの言語レベルの音響、音声、および語彙型に考 … 続きを読む
PredGen: Accelerated Inference of Large Language Models through Input-Time Speculation for Real-Time Speech Interaction
要約 大規模な言語モデル(LLMS)は、通常、テキストツーチック(TTS)システ … 続きを読む
A Bird Song Detector for improving bird identification through Deep Learning: a case study from Doñana
要約 パッシブ音響モニタリングは、生物多様性の保全のための重要なツールですが、監 … 続きを読む
Refining music sample identification with a self-supervised graph neural network
要約 自動サンプル識別(ASID)、新しい音楽作品で再利用されたオーディオ録音の … 続きを読む
Adaptive Accompaniment with ReaLchords
要約 ジャミングには、ミュージシャン間の調整、期待、共同の創造性が必要です。 音 … 続きを読む
Exploring Speaker Diarization with Mixture of Experts
要約 このホワイトペーパーでは、メモリ対応のマルチスピーカー埋め込みを使用して、 … 続きを読む
A Variational Framework for Improving Naturalness in Generative Spoken Language Models
要約 テキスト処理における大規模な言語モデルの成功により、音声モデリングへの適応 … 続きを読む
Qwen vs. Gemma Integration with Whisper: A Comparative Study in Multilingual SpeechLLM Systems
要約 このペーパーでは、MLC-SLM Challenge 2025のシステムを … 続きを読む