-
最近の投稿
- Bayesian optimization for robust robotic grasping using a sensorized compliant hand
- Lessons from Learning to Spin ‘Pens’
- Uncertainty-Aware Planning for Heterogeneous Robot Teams using Dynamic Topological Graphs and Mixed-Integer Programming
- Screw Geometry Meets Bandits: Incremental Acquisition of Demonstrations to Generate Manipulation Plans
- Search-Based Path Planning among Movable Obstacles
-
最近のコメント
表示できるコメントはありません。 cs.AI (28604) cs.CL (21619) cs.CR (2231) cs.CV (35206) cs.LG (33368) cs.RO (16520) cs.SY (2542) eess.IV (4287) eess.SY (2536) stat.ML (4474)
「eess.AS」カテゴリーアーカイブ
Imaginary Voice: Face-styled Diffusion Model for Text-to-Speech
要約 この作業の目標は、顔の特徴から学習した話し方と声による、ゼロショットのテキ … 続きを読む
Cross-modal Face- and Voice-style Transfer
要約 画像から画像への変換と音声変換により、画像内のポーズや音声内の言語コンテン … 続きを読む
Improving Massively Multilingual ASR With Auxiliary CTC Objectives
要約 多言語自動音声認識 (ASR) モデルにより、音声テクノロジの使いやすさが … 続きを読む
Supervised Hierarchical Clustering using Graph Neural Networks for Speaker Diarization
要約 話者ダイアライゼーションの従来の方法では、音声ファイルを短いセグメントにウ … 続きを読む
Factual Consistency Oriented Speech Recognition
要約 この論文では、自動音声認識 (ASR) の新しい最適化フレームワークを提示 … 続きを読む
Enhancing and Adversarial: Improve ASR with Speaker Labels
要約 ASR は、ドメイン強化またはドメイン敵対トレーニングを使用したマルチタス … 続きを読む
Ensemble knowledge distillation of self-supervised speech models
要約 蒸留された自己教師ありモデルは、近年、競争力のあるパフォーマンスと効率を示 … 続きを読む
Improving Massively Multilingual ASR With Auxiliary CTC Objectives
要約 多言語自動音声認識 (ASR) モデルにより、音声テクノロジの使いやすさが … 続きを読む
ProsAudit, a prosodic benchmark for self-supervised speech models
要約 ProsAudit は、自己教師あり学習 (SSL) 音声モデルの構造韻律 … 続きを読む
Fast and accurate factorized neural transducer for text adaption of end-to-end speech recognition models
要約 ニューラル トランスデューサは、その自然なストリーミング機能により、現在、 … 続きを読む