-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
ESPnet-SPK: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models
要約 このペーパーでは、スピーカー埋め込み抽出器をトレーニングするためのいくつか … 続きを読む
Scaling NVIDIA’s Multi-speaker Multi-lingual TTS Systems with Zero-Shot TTS to Indic Languages
要約 このペーパーでは、MMITS-VC (音声クローニングを備えたマルチスピー … 続きを読む
Synchformer: Efficient Synchronization from Sparse Cues
要約 私たちの目的は、同期キューがまばらな可能性がある YouTube などの「 … 続きを読む
MT-SLVR: Multi-Task Self-Supervised Learning for Transformation In(Variant) Representations
要約 対照的自己教師あり学習は、大規模なラベルなしデータセットから高品質の表現を … 続きを読む
Enhancement of a Text-Independent Speaker Verification System by using Feature Combination and Parallel-Structure Classifiers
要約 話者検証 (SV) システムには、主に特徴抽出と分類という 2 つの個別の … 続きを読む
Multiple output samples per input in a single-output Gaussian process
要約 標準のガウス プロセス (GP) では、トレーニング セット内の入力ごとに … 続きを読む
UNIT-DSR: Dysarthric Speech Reconstruction System Using Speech Unit Normalization
要約 構音障害音声再構成 (DSR) システムは、構音障害のある音声を正常な音声 … 続きを読む
Comparison of parameters of vowel sounds of russian and english languages
要約 多言語音声認識システムでは、言語が事前にわかっていないにもかかわらず、信号 … 続きを読む
Turn-taking and Backchannel Prediction with Acoustic and Large Language Model Fusion
要約 我々は、神経音響モデルと大規模言語モデル(LLM)を融合することにより、音 … 続きを読む
Disentanglement in a GAN for Unconditional Speech Synthesis
要約 明示的な条件付けをせずに、潜在空間から直接リアルな音声を合成できるモデルを … 続きを読む