-
最近の投稿
- MLR-Bench: Evaluating AI Agents on Open-Ended Machine Learning Research
- DCG-SQL: Enhancing In-Context Learning for Text-to-SQL with Deep Contextual Schema Link Graph
- RapidPoseTriangulation: Multi-view Multi-person Whole-body Human Pose Triangulation in a Millisecond
- Robust Immersive Bilateral Teleoperation of Beyond-Human-Scale Systems with Enhanced Transparency and Sense of Embodiment
- Sensorimotor features of self-awareness in multimodal large language models
-
最近のコメント
表示できるコメントはありません。 cs.AI (38708) cs.CL (29256) cs.CV (44154) cs.HC (2946) cs.LG (43616) cs.RO (23064) cs.SY (3533) eess.IV (5097) eess.SY (3525) stat.ML (5672)
「eess.AS」カテゴリーアーカイブ
Granary: Speech Recognition and Translation Dataset in 25 European Languages
要約 マルチタスクと多言語のアプローチは大規模なモデルに利益をもたらしますが、低 … 続きを読む
Mitigating Subgroup Disparities in Multi-Label Speech Emotion Recognition: A Pseudo-Labeling and Unsupervised Learning Approach
要約 サブグループの格差とパフォーマンスバイアスは計算研究でますます研究されてい … 続きを読む
MIKU-PAL: An Automated and Standardized Multi-Modal Method for Speech Paralinguistic and Affect Labeling
要約 強い一貫性を持つ大規模な感情的な音声データを取得することは、音声統合の課題 … 続きを読む
ToxicTone: A Mandarin Audio Dataset Annotated for Toxicity and Toxic Utterance Tonality
要約 テキストでの有毒な音声検出に関する広範な研究にもかかわらず、音声のマンダリ … 続きを読む
LSCodec: Low-Bitrate and Speaker-Decoupled Discrete Speech Codec
要約 個別の音声トークンは、言語モデルベースの音声生成に強い可能性を示しています … 続きを読む
dMel: Speech Tokenization made Simple
要約 大規模な言語モデルは、膨大なテキストデータに自己監視された事前供与を活用す … 続きを読む
CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment
要約 視聴覚学習の最近の進歩により、モダリティ全体の学習表現における有望な結果が … 続きを読む
Scaling and Enhancing LLM-based AVSR: A Sparse Mixture of Projectors Approach
要約 視覚的なキューを統合することにより、騒々しい環境での視聴覚音声認識(AVS … 続きを読む
Self-Supervised Frameworks for Speaker Verification via Bootstrapped Positive Sampling
要約 自己学習学習(SSL)の最近の開発は、スピーカー検証(SV)の重要な可能性 … 続きを読む