-
最近の投稿
- Grasp EveryThing (GET): 1-DoF, 3-Fingered Gripper with Tactile Sensing for Robust Grasping
- Neural Inertial Odometry from Lie Events
- Physical synchronization of soft self-oscillating limbs for fast and autonomous locomotion
- CRADMap: Applied Distributed Volumetric Mapping with 5G-Connected Multi-Robots and 4D Radar Perception
- Learning Rock Pushability on Rough Planetary Terrain
-
最近のコメント
表示できるコメントはありません。 cs.AI (38176) cs.CL (28850) cs.CV (43741) cs.HC (2915) cs.LG (43106) cs.RO (22722) cs.SY (3490) eess.IV (5071) eess.SY (3482) stat.ML (5612)
「cs.SD」カテゴリーアーカイブ
Are Transformers in Pre-trained LM A Good ASR Encoder? An Empirical Study
要約 この研究では、自動音声認識 (ASR) のエンコーダーとして再利用された場 … 続きを読む
GTSinger: A Global Multi-Technique Singing Corpus with Realistic Music Scores for All Singing Tasks
要約 高品質でマルチタスクの歌唱データセットの不足は、既存の歌唱データセットの品 … 続きを読む
Revisiting Acoustic Similarity in Emotional Speech and Music via Self-Supervised Representations
要約 音声と音楽からの感情認識には、音響的な重複があるため類似点があり、これらの … 続きを読む
Data-Driven Room Acoustic Modeling Via Differentiable Feedback Delay Networks With Learnable Delay Lines
要約 過去数十年にわたり、物理的環境の室内音響をエミュレートすることを目的とした … 続きを読む
Cross-lingual Speech Emotion Recognition: Humans vs. Self-Supervised Models
要約 音声感情認識 (SER) に自己教師あり学習 (SSL) モデルを利用する … 続きを読む
Weighted Cross-entropy for Low-Resource Languages in Multilingual Speech Recognition
要約 この文書では、低リソース言語を多言語自動音声認識 (ASR) システムに統 … 続きを読む
Semi-Supervised Cognitive State Classification from Speech with Multi-View Pseudo-Labeling
要約 ラベル付きデータの欠如は、音声分類タスク、特に認知状態分類などの広範な主観 … 続きを読む
Using LLM for Real-Time Transcription and Summarization of Doctor-Patient Interactions into ePuskesmas in Indonesia
要約 プスケスマスの非効率性に寄与する主な問題の 1 つは、医師と患者のやり取り … 続きを読む
The Effect of Perceptual Metrics on Music Representation Learning for Genre Classification
要約 自然信号の主観的な品質は、客観的な知覚指標で近似できます。 人間の観察者の … 続きを読む
Evaluation of state-of-the-art ASR Models in Child-Adult Interactions
要約 臨床現場で子供と大人の会話を確実に書き起こす能力は、自閉症スペクトラム障害 … 続きを読む