-
最近の投稿
- Gaze-based dual resolution deep imitation learning for high-precision dexterous robot manipulation
- Transformer-based deep imitation learning for dual-arm robot manipulation
- Goal-conditioned dual-action imitation learning for dexterous dual-arm robot manipulation
- Motion Priors Reimagined: Adapting Flat-Terrain Skills for Complex Quadruped Mobility
- Event-based Reconfiguration Control for Time-varying Formation of Robot Swarms in Narrow Spaces
-
最近のコメント
表示できるコメントはありません。 cs.AI (38545) cs.CL (29129) cs.CV (44032) cs.HC (2938) cs.LG (43457) cs.RO (22973) cs.SY (3516) eess.IV (5086) eess.SY (3508) stat.ML (5650)
「eess.AS」カテゴリーアーカイブ
From Tens of Hours to Tens of Thousands: Scaling Back-Translation for Speech Recognition
要約 自動音声認識(ASR)の最近の進歩は、大規模な音声コーパスによって大きく促 … 続きを読む
Slamming: Training a Speech Language Model on One GPU in a Day
要約 24時間で単一のアカデミックGPUで高品質の音声言語モデル(SLM)をトレ … 続きを読む
Active Speech Enhancement: Active Speech Denoising Decliping and Deveraberation
要約 アクティブなサウンド変更のための新しいパラダイムを紹介します:アクティブな … 続きを読む
‘Alexa, can you forget me?’ Machine Unlearning Benchmark in Spoken Language Understanding
要約 機械学習モデルから特定の情報を効率的に削除するプロセスであるマシンの未学習 … 続きを読む
Granary: Speech Recognition and Translation Dataset in 25 European Languages
要約 マルチタスクと多言語のアプローチは大規模なモデルに利益をもたらしますが、低 … 続きを読む
Mitigating Subgroup Disparities in Multi-Label Speech Emotion Recognition: A Pseudo-Labeling and Unsupervised Learning Approach
要約 サブグループの格差とパフォーマンスバイアスは計算研究でますます研究されてい … 続きを読む
MIKU-PAL: An Automated and Standardized Multi-Modal Method for Speech Paralinguistic and Affect Labeling
要約 強い一貫性を持つ大規模な感情的な音声データを取得することは、音声統合の課題 … 続きを読む
ToxicTone: A Mandarin Audio Dataset Annotated for Toxicity and Toxic Utterance Tonality
要約 テキストでの有毒な音声検出に関する広範な研究にもかかわらず、音声のマンダリ … 続きを読む
LSCodec: Low-Bitrate and Speaker-Decoupled Discrete Speech Codec
要約 個別の音声トークンは、言語モデルベースの音声生成に強い可能性を示しています … 続きを読む