-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Naturalistic Music Decoding from EEG Data via Latent Diffusion Models
要約 この記事では、脳波 (EEG) 記録から自然な音楽を再構築するタスクに、強 … 続きを読む
Towards auditory attention decoding with noise-tagging: A pilot study
要約 聴覚注意デコーディング (AAD) は、脳活動から話者候補の中から注目して … 続きを読む
Building a Luganda Text-to-Speech Model From Crowdsourced Data
要約 ルガンダなどのアフリカ言語のテキスト読み上げ (TTS) 開発は依然として … 続きを読む
Listen Again and Choose the Right Answer: A New Paradigm for Automatic Speech Recognition with Large Language Models
要約 大規模言語モデル (LLM) の最近の進歩により、自動音声認識 (ASR) … 続きを読む
GenTranslate: Large Language Models are Generative Multilingual Speech and Machine Translators
要約 大規模言語モデル (LLM) の最近の進歩により、表現エラーが減少し、外部 … 続きを読む
Revisiting Deep Audio-Text Retrieval Through the Lens of Transportation
要約 Learning-to-match (LTM) フレームワークは、2 つの … 続きを読む
A novel Reservoir Architecture for Periodic Time Series Prediction
要約 この論文では、リザーバー コンピューティングを使用して周期時系列を予測する … 続きを読む
Faces that Speak: Jointly Synthesising Talking Face and Speech from Text
要約 この作業の目標は、自然な話し顔とテキストからの音声出力を同時に生成すること … 続きを読む
A vector quantized masked autoencoder for audiovisual speech emotion recognition
要約 ラベル付きデータの利用可能性が限られていることが、視聴覚音声感情認識 (S … 続きを読む