-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
MoLE : Mixture of Language Experts for Multi-Lingual Automatic Speech Recognition
要約 多言語音声認識は、異なる言語の言語表現を区別し、同時に音響処理を統合するこ … 続きを読む
Multimodal Speech Recognition for Language-Guided Embodied Agents
要約 言語ガイド付きの具体化されたエージェントのベンチマークは通常、テキストベー … 続きを読む
Text-only domain adaptation for end-to-end ASR using integrated text-to-mel-spectrogram generator
要約 転写された音声データ、テキスト データ、または両方の混合でトレーニングでき … 続きを読む
A Comparative Analysis Of Latent Regressor Losses For Singing Voice Conversion
要約 以前の研究では、話し声変換 (VC) の確立された手法は、歌声変換 (SV … 続きを読む
Imaginary Voice: Face-styled Diffusion Model for Text-to-Speech
要約 この作業の目標は、顔の特徴から学習した話し方と声による、ゼロショットのテキ … 続きを読む
Cross-modal Face- and Voice-style Transfer
要約 画像から画像への変換と音声変換により、画像内のポーズや音声内の言語コンテン … 続きを読む
Improving Massively Multilingual ASR With Auxiliary CTC Objectives
要約 多言語自動音声認識 (ASR) モデルにより、音声テクノロジの使いやすさが … 続きを読む
Supervised Hierarchical Clustering using Graph Neural Networks for Speaker Diarization
要約 話者ダイアライゼーションの従来の方法では、音声ファイルを短いセグメントにウ … 続きを読む
Factual Consistency Oriented Speech Recognition
要約 この論文では、自動音声認識 (ASR) の新しい最適化フレームワークを提示 … 続きを読む