-
最近の投稿
- Multimodal Active Measurement for Human Mesh Recovery in Close Proximity
- An Algorithm for Distributed Computation of Reachable Sets for Multi-Agent Systems
- Meta-Learning Augmented MPC for Disturbance-Aware Motion Planning and Control of Quadrotors
- Solving Multi-Goal Robotic Tasks with Decision Transformer
- Context-Aware Command Understanding for Tabletop Scenarios
-
最近のコメント
表示できるコメントはありません。 cs.AI (27848) cs.CL (21045) cs.CR (2180) cs.CV (34554) cs.LG (32592) cs.RO (15968) cs.SY (2478) eess.IV (4238) eess.SY (2472) stat.ML (4364)
「cs.SD」カテゴリーアーカイブ
Speech Self-Supervised Representations Benchmarking: a Case for Larger Probing Heads
要約 自己教師あり学習 (SSL) は、ラベルのない音声の大規模なデータセットを … 続きを読む
Advancing Audio Fingerprinting Accuracy Addressing Background Noise and Distortion Challenges
要約 Shazam のような先駆者に代表されるオーディオ フィンガープリンティン … 続きを読む
A multimodal dynamical variational autoencoder for audiovisual speech representation learning
要約 この論文では、教師なし視聴覚音声表現学習に適用されるマルチモーダルで動的 … 続きを読む
Unsupervised ASR via Cross-Lingual Pseudo-Labeling
要約 最近の研究では、ペアになっていない音声とテキストのみを使用して $\tex … 続きを読む
DeepSRGM — Sequence Classification and Ranking in Indian Classical Music with Deep Learning
要約 インド古典音楽 (ICM) の重要な側面はラーガであり、作曲と即興演奏のメ … 続きを読む
Leveraging Pre-Trained Autoencoders for Interpretable Prototype Learning of Music Audio
要約 我々は、プロトタイプ学習に基づいた音楽オーディオ分類の解釈可能なモデル P … 続きを読む
The Sound of Healthcare: Improving Medical Transcription ASR Accuracy with Large Language Models
要約 急速に進化する医療文書の状況では、臨床対話を正確に書き写すことがますます重 … 続きを読む
LightCAM: A Fast and Light Implementation of Context-Aware Masking based D-TDNN for Speaker Verification
要約 従来の時間遅延ニューラル ネットワーク (TDNN) は、計算の複雑さと推 … 続きを読む
AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension
要約 最近、指示に従う音声言語モデルが、人間と音声のインタラクションとして広く注 … 続きを読む
Developing a Multi-variate Prediction Model For COVID-19 From Crowd-sourced Respiratory Voice Data
要約 新型コロナウイルス感染症は世界 223 か国以上に影響を及ぼしており、ポス … 続きを読む