-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
A Self-Refining Framework for Enhancing ASR Using TTS-Synthesized Data
要約 非標識データセットのみでASRパフォーマンスを強化する自己強化フレームワー … 続きを読む
Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model
要約 GPT-4O様の大型マルチモーダルモデル(LMMS)の出現により、テキスト … 続きを読む
Non-intrusive Speech Quality Assessment with Diffusion Models Trained on Clean Speech
要約 拡散モデルは、高品質で自然な音声サンプルを生成することに大きな成功を収めて … 続きを読む
Impact of Frame Rates on Speech Tokenizer: A Case Study on Mandarin and English
要約 音声トークネイザーは、最近の音声タスクで重要な役割を果たし、一般的に音声シ … 続きを読む
Reimagining Dance: Real-time Music Co-creation between Dancers and AI
要約 ダンスのパフォーマンスは、伝統的に、動きが音楽に反応する一方的な関係に従っ … 続きを読む
UmbraTTS: Adapting Text-to-Speech to Environmental Contexts with Flow Matching
要約 テキストからスピーチ(TTS)の最近の進歩により、非常に自然な音声統合が可 … 続きを読む
Regularizing Learnable Feature Extraction for Automatic Speech Recognition
要約 ニューラルフロントエンドは、音響モデルに適合するように直接訓練できるため、 … 続きを読む
InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions
要約 豊富なマルチモーダル条件を備えたエンドツーエンドの人間のアニメーション、例 … 続きを読む
Teaching Physical Awareness to LLMs through Sounds
要約 大規模な言語モデル(LLM)は、テキストとマルチモーダル処理に顕著な能力を … 続きを読む