-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Unsupervised speech enhancement with deep dynamical generative speech and noise models
要約 この研究は、クリーン音声モデルとして動的変分オートエンコーダ (DVAE) … 続きを読む
Modality Adaption or Regularization? A Case Study on End-to-End Speech Translation
要約 事前トレーニングと微調整は、エンドツーエンド音声翻訳 (E2E ST) に … 続きを読む
PolyVoice: Language Models for Speech to Speech Translation
要約 私たちは、言語モデルベースの音声翻訳 (S2ST) システムのフレームワー … 続きを読む
GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition
要約 Contrastive Language-Audio Pretrainin … 続きを読む
Multimodal Audio-textual Architecture for Robust Spoken Language Understanding
要約 最近の音声アシスタントは通常、自動音声認識 (ASR) エンジンと自然言語 … 続きを読む
StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models
要約 この論文では、スタイルの拡散と大規模音声言語モデル (SLM) による敵対 … 続きを読む
Video-to-Music Recommendation using Temporal Alignment of Segments
要約 私たちは、ビデオのサウンドトラックとして使用される音楽トラックのクロスモー … 続きを読む
Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding
要約 私たちは、大規模言語モデル (LLM) にビデオ内の視覚コンテンツと聴覚コ … 続きを読む
DC CoMix TTS: An End-to-End Expressive TTS with Discrete Code Collaborated with Mixer
要約 中立的な TTS は大きな成功を収めましたが、コンテンツの漏洩は依然として … 続きを読む