-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
A multimodal dynamical variational autoencoder for audiovisual speech representation learning
要約 この論文では、教師なし視聴覚音声表現学習に適用されるマルチモーダルで動的 … 続きを読む
Textless Low-Resource Speech-to-Speech Translation With Unit Language Models
要約 既存の音声対音声翻訳モデルは 2 つのグループに分類されます。1 つは数百 … 続きを読む
Bayesian Parameter-Efficient Fine-Tuning for Overcoming Catastrophic Forgetting
要約 テキスト音声合成モデルの適応が動機となっていますが、より一般的なパラメータ … 続きを読む
Unsupervised ASR via Cross-Lingual Pseudo-Labeling
要約 最近の研究では、ペアになっていない音声とテキストのみを使用して $\tex … 続きを読む
BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data
要約 BASE TTS と呼ばれるテキスト読み上げ (TTS) モデルを導入しま … 続きを読む
DeepSRGM — Sequence Classification and Ranking in Indian Classical Music with Deep Learning
要約 インド古典音楽 (ICM) の重要な側面はラーガであり、作曲と即興演奏のメ … 続きを読む
Leveraging Pre-Trained Autoencoders for Interpretable Prototype Learning of Music Audio
要約 我々は、プロトタイプ学習に基づいた音楽オーディオ分類の解釈可能なモデル P … 続きを読む
The Sound of Healthcare: Improving Medical Transcription ASR Accuracy with Large Language Models
要約 急速に進化する医療文書の状況では、臨床対話を正確に書き写すことがますます重 … 続きを読む
LightCAM: A Fast and Light Implementation of Context-Aware Masking based D-TDNN for Speaker Verification
要約 従来の時間遅延ニューラル ネットワーク (TDNN) は、計算の複雑さと推 … 続きを読む