-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition
要約 Contrastive Language-Audio Pretrainin … 続きを読む
StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models
要約 この論文では、スタイルの拡散と大規模音声言語モデル (SLM) による敵対 … 続きを読む
Video-to-Music Recommendation using Temporal Alignment of Segments
要約 私たちは、ビデオのサウンドトラックとして使用される音楽トラックのクロスモー … 続きを読む
Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding
要約 私たちは、大規模言語モデル (LLM) にビデオ内の視覚コンテンツと聴覚コ … 続きを読む
DC CoMix TTS: An End-to-End Expressive TTS with Discrete Code Collaborated with Mixer
要約 中立的な TTS は大きな成功を収めましたが、コンテンツの漏洩は依然として … 続きを読む
Multi-View Frequency-Attention Alternative to CNN Frontends for Automatic Speech Recognition
要約 畳み込みフロントエンドは、スペクトログラムを前処理し、シーケンスの長さを削 … 続きを読む
Exploring Attention Mechanisms for Multimodal Emotion Recognition in an Emergency Call Center Corpus
要約 人間の意思決定を強化する感情検出テクノロジーは、現実世界のアプリケーション … 続きを読む
EmotionNAS: Two-stream Neural Architecture Search for Speech Emotion Recognition
要約 音声感情認識 (SER) は、人間とコンピューターの対話における重要な研究 … 続きを読む
Reconstructing Human Expressiveness in Piano Performances with a Transformer Network
要約 コンピュータによるアプローチを使用して、音楽演奏における人間の表現力の複雑 … 続きを読む
Low-rank Adaptation Method for Wav2vec2-based Fake Audio Detection
要約 自己教師あり音声モデルは、偽音声検出において急速に発展している研究トピック … 続きを読む