-
最近の投稿
- Gaze-based dual resolution deep imitation learning for high-precision dexterous robot manipulation
- Transformer-based deep imitation learning for dual-arm robot manipulation
- Goal-conditioned dual-action imitation learning for dexterous dual-arm robot manipulation
- Motion Priors Reimagined: Adapting Flat-Terrain Skills for Complex Quadruped Mobility
- Event-based Reconfiguration Control for Time-varying Formation of Robot Swarms in Narrow Spaces
-
最近のコメント
表示できるコメントはありません。 cs.AI (38545) cs.CL (29129) cs.CV (44032) cs.HC (2938) cs.LG (43457) cs.RO (22973) cs.SY (3516) eess.IV (5086) eess.SY (3508) stat.ML (5650)
「cs.SD」カテゴリーアーカイブ
From Tens of Hours to Tens of Thousands: Scaling Back-Translation for Speech Recognition
要約 自動音声認識(ASR)の最近の進歩は、大規模な音声コーパスによって大きく促 … 続きを読む
Slamming: Training a Speech Language Model on One GPU in a Day
要約 24時間で単一のアカデミックGPUで高品質の音声言語モデル(SLM)をトレ … 続きを読む
Mitigating Subgroup Disparities in Multi-Label Speech Emotion Recognition: A Pseudo-Labeling and Unsupervised Learning Approach
要約 サブグループの格差とパフォーマンスバイアスは計算研究でますます研究されてい … 続きを読む
MIKU-PAL: An Automated and Standardized Multi-Modal Method for Speech Paralinguistic and Affect Labeling
要約 強い一貫性を持つ大規模な感情的な音声データを取得することは、音声統合の課題 … 続きを読む
LSCodec: Low-Bitrate and Speaker-Decoupled Discrete Speech Codec
要約 個別の音声トークンは、言語モデルベースの音声生成に強い可能性を示しています … 続きを読む
dMel: Speech Tokenization made Simple
要約 大規模な言語モデルは、膨大なテキストデータに自己監視された事前供与を活用す … 続きを読む
CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment
要約 視聴覚学習の最近の進歩により、モダリティ全体の学習表現における有望な結果が … 続きを読む
Scaling and Enhancing LLM-based AVSR: A Sparse Mixture of Projectors Approach
要約 視覚的なキューを統合することにより、騒々しい環境での視聴覚音声認識(AVS … 続きを読む
Self-Supervised Frameworks for Speaker Verification via Bootstrapped Positive Sampling
要約 自己学習学習(SSL)の最近の開発は、スピーカー検証(SV)の重要な可能性 … 続きを読む