-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model
要約 GPT-4O様の大型マルチモーダルモデル(LMMS)の出現により、テキスト … 続きを読む
Non-intrusive Speech Quality Assessment with Diffusion Models Trained on Clean Speech
要約 拡散モデルは、高品質で自然な音声サンプルを生成することに大きな成功を収めて … 続きを読む
Impact of Frame Rates on Speech Tokenizer: A Case Study on Mandarin and English
要約 音声トークネイザーは、最近の音声タスクで重要な役割を果たし、一般的に音声シ … 続きを読む
Reimagining Dance: Real-time Music Co-creation between Dancers and AI
要約 ダンスのパフォーマンスは、伝統的に、動きが音楽に反応する一方的な関係に従っ … 続きを読む
Analyzing the relationships between pretraining language, phonetic, tonal, and speaker information in self-supervised speech models
要約 自己教師の音声モデルの分析は、さまざまな種類の情報をどこでどのように表現す … 続きを読む
UmbraTTS: Adapting Text-to-Speech to Environmental Contexts with Flow Matching
要約 テキストからスピーチ(TTS)の最近の進歩により、非常に自然な音声統合が可 … 続きを読む
Fine-Tuning Large Audio-Language Models with LoRA for Precise Temporal Localization of Prolonged Exposure Therapy Elements
要約 長期曝露(PE)療法は、心的外傷後ストレス障害(PTSD)の効果的な治療法 … 続きを読む
Regularizing Learnable Feature Extraction for Automatic Speech Recognition
要約 ニューラルフロントエンドは、音響モデルに適合するように直接訓練できるため、 … 続きを読む
Teaching Physical Awareness to LLMs through Sounds
要約 大規模な言語モデル(LLM)は、テキストとマルチモーダル処理に顕著な能力を … 続きを読む