-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
Revisiting Acoustic Similarity in Emotional Speech and Music via Self-Supervised Representations
要約 音声と音楽からの感情認識には、音響的な重複があるため類似点があり、これらの … 続きを読む
Data-Driven Room Acoustic Modeling Via Differentiable Feedback Delay Networks With Learnable Delay Lines
要約 過去数十年にわたり、物理的環境の室内音響をエミュレートすることを目的とした … 続きを読む
Cross-lingual Speech Emotion Recognition: Humans vs. Self-Supervised Models
要約 音声感情認識 (SER) に自己教師あり学習 (SSL) モデルを利用する … 続きを読む
Weighted Cross-entropy for Low-Resource Languages in Multilingual Speech Recognition
要約 この文書では、低リソース言語を多言語自動音声認識 (ASR) システムに統 … 続きを読む
Semi-Supervised Cognitive State Classification from Speech with Multi-View Pseudo-Labeling
要約 ラベル付きデータの欠如は、音声分類タスク、特に認知状態分類などの広範な主観 … 続きを読む
Using LLM for Real-Time Transcription and Summarization of Doctor-Patient Interactions into ePuskesmas in Indonesia
要約 プスケスマスの非効率性に寄与する主な問題の 1 つは、医師と患者のやり取り … 続きを読む
The Effect of Perceptual Metrics on Music Representation Learning for Genre Classification
要約 自然信号の主観的な品質は、客観的な知覚指標で近似できます。 人間の観察者の … 続きを読む
Evaluation of state-of-the-art ASR Models in Child-Adult Interactions
要約 臨床現場で子供と大人の会話を確実に書き起こす能力は、自閉症スペクトラム障害 … 続きを読む
VoxHakka: A Dialectally Diverse Multi-speaker Text-to-Speech System for Taiwanese Hakka
要約 この文書では、台湾で話されている非常にリソースが不足している言語である台湾 … 続きを読む
A Modular-based Strategy for Mitigating Gradient Conflicts in Simultaneous Speech Translation
要約 同時音声翻訳 (SimulST) では、ストリーミング音声入力を継続的に処 … 続きを読む