-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
QI-TTS: Questioning Intonation Control for Emotional Speech Synthesis
要約 最近の表現力豊かなテキスト読み上げ (TTS) モデルは、感情的なスピーチ … 続きを読む
Dynamic Alignment Mask CTC: Improved Mask-CTC with Aligned Cross Entropy
要約 すべてのターゲット トークンを並行して予測するため、非自己回帰モデルは、従 … 続きを読む
Improving CTC-based ASR Models with Gated Interlayer Collaboration
要約 通常、外部言語モデルを使用しない CTC ベースの自動音声認識 (ASR) … 続きを読む
Good Neighbors Are All You Need for Chinese Grapheme-to-Phoneme Conversion
要約 ほとんどの中国語の書記素から音素 (G2P) システムは、最初に入力シーケ … 続きを読む
Efficient Speech Translation with Dynamic Latent Perceivers
要約 近年、トランスフォーマーは音声翻訳の主要なアーキテクチャであり、翻訳品質の … 続きを読む
TriNet: stabilizing self-supervised learning from complete or slow collapse on ASR
要約 自己教師あり学習 (SSL) モデルは、急激な情報崩壊やゆっくりとした次元 … 続きを読む
Improving Accented Speech Recognition with Multi-Domain Training
要約 自己教師あり学習の台頭により、自動音声認識 (ASR) システムは現在、さ … 続きを読む
DECAR: Deep Clustering for learning general-purpose Audio Representations
要約 汎用の音声表現を学習するための自己教師あり事前トレーニング アプローチであ … 続きを読む
Improving Prosody for Cross-Speaker Style Transfer by Semi-Supervised Style Extractor and Hierarchical Modeling in Speech Synthesis
要約 音声合成における話者間スタイル転送は、スタイルをソース スピーカーからター … 続きを読む
A Study on Bias and Fairness In Deep Speaker Recognition
要約 個人を認証し、サービスをパーソナライズする手段として話者認識 (SR) シ … 続きを読む