-
最近の投稿
- MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework
- SLLEN: Semantic-aware Low-light Image Enhancement Network
- TuneTables: Context Optimization for Scalable Prior-Data Fitted Networks
- Impact of Dataset Properties on Membership Inference Vulnerability of Deep Transfer Learning
- Joint Sensing and Semantic Communications with Multi-Task Deep Learning
-
最近のコメント
表示できるコメントはありません。 cs.AI (28403) cs.CL (21462) cs.CR (2219) cs.CV (35034) cs.LG (33149) cs.RO (16370) cs.SY (2518) eess.IV (4266) eess.SY (2512) stat.ML (4445)
「eess.AS」カテゴリーアーカイブ
Learning Emotional Representations from Imbalanced Speech Data for Speech Emotion Recognition and Emotional Text-to-Speech
要約 効果的な音声感情表現は、音声感情認識 (SER) および感情的テキスト読み … 続きを読む
Efficient Encoder-Decoder and Dual-Path Conformer for Comprehensive Feature Learning in Speech Enhancement
要約 現在の音声強調 (SE) 研究では、チャネル アテンションと空間アテンショ … 続きを読む
An Efficient Speech Separation Network Based on Recurrent Fusion Dilated Convolution and Channel Attention
要約 我々は、拡張畳み込み、マルチスケール融合(MSF)、および畳み込みベースの … 続きを読む
Developing Speech Processing Pipelines for Police Accountability
要約 警察の身体装着型カメラは、警察の責任と透明性を向上させる可能性を秘めていま … 続きを読む
HRTF upsampling with a generative adversarial network using a gnomonic equiangular projection
要約 個別化された頭部伝達関数 (HRTF) は、現実的な仮想現実 (VR) お … 続きを読む
Matching Latent Encoding for Audio-Text based Keyword Spotting
要約 キーワード スポッティング (KWS) で音声とテキストの埋め込みを併用す … 続きを読む
Assessing Phrase Break of ESL Speech with Pre-trained Language Models and Large Language Models
要約 この研究では、事前トレーニング済み言語モデル (PLM) と大規模言語モデ … 続きを読む
The ART of Conversation: Measuring Phonetic Convergence and Deliberate Imitation in L2-Speech with a Siamese RNN
要約 音声収束とは、会話中の 2 人の対話者の自動的かつ無意識的な音声適応を指し … 続きを読む
BabySLM: language-acquisition-friendly benchmark of self-supervised spoken language models
要約 音声表現を学習するための自己教師ありの技術は、人間によるラベルを必要とせず … 続きを読む
Two Stage Contextual Word Filtering for Context bias in Unified Streaming and Non-streaming Transducer
要約 E2E ASR システムでは、トレーニング データにあまり出現しないエンテ … 続きを読む