-
最近の投稿
- Design of an End-effector with Application to Avocado Harvesting
- Active Human Pose Estimation via an Autonomous UAV Agent
- Equivariant Diffusion Policy
- Empathic Grounding: Explorations using Multimodal Interaction and Large Language Models with Conversational Agents
- LHManip: A Dataset for Long-Horizon Language-Grounded Manipulation Tasks in Cluttered Tabletop Environments
-
最近のコメント
表示できるコメントはありません。 cs.AI (23553) cs.CL (17693) cs.CR (1841) cs.CV (30612) cs.LG (28313) cs.RO (13198) cs.SY (2095) eess.IV (3775) eess.SY (2090) stat.ML (3894)
「eess.AS」カテゴリーアーカイブ
Naturalistic Music Decoding from EEG Data via Latent Diffusion Models
要約 この記事では、脳波 (EEG) 記録から自然な音楽を再構築するタスクに、強 … 続きを読む
Open-Source Conversational AI with SpeechBrain 1.0
要約 SpeechBrain は、PyTorch に基づくオープンソースの会話 … 続きを読む
Robust Zero-Shot Text-to-Speech Synthesis with Reverse Inference Optimization
要約 この論文では、人間のフィードバックからの強化学習 (RLHF) を使用して … 続きを読む
Towards Robust Speech Representation Learning for Thousands of Languages
要約 自己教師あり学習 (SSL) は、ラベル付きデータの必要性を減らし、音声テ … 続きを読む
SlideAVSR: A Dataset of Paper Explanation Videos for Audio-Visual Speech Recognition
要約 オーディオビジュアル音声認識 (AVSR) は、自動音声認識 (ASR) … 続きを読む
Is one brick enough to break the wall of spoken dialogue state tracking?
要約 タスク指向対話 (TOD) システムでは、ユーザーの要求に対するシステムの … 続きを読む
Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts)
要約 Explainable AI for the Arts (XAIxArts … 続きを読む
Deep Active Audio Feature Learning in Resource-Constrained Environments
要約 ラベル付きデータが不足しているため、生体音響アプリケーションでのディープ … 続きを読む
Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models
要約 現在の音声ディープフェイク検出器にとって一般化は主な問題であり、配布外のデ … 続きを読む