-
最近の投稿
- MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework
- SLLEN: Semantic-aware Low-light Image Enhancement Network
- TuneTables: Context Optimization for Scalable Prior-Data Fitted Networks
- Impact of Dataset Properties on Membership Inference Vulnerability of Deep Transfer Learning
- Joint Sensing and Semantic Communications with Multi-Task Deep Learning
-
最近のコメント
表示できるコメントはありません。 cs.AI (28403) cs.CL (21462) cs.CR (2219) cs.CV (35034) cs.LG (33149) cs.RO (16370) cs.SY (2518) eess.IV (4266) eess.SY (2512) stat.ML (4445)
「eess.AS」カテゴリーアーカイブ
Efficient Self-supervised Learning with Contextualized Target Representations for Vision, Speech and Language
要約 現在の自己教師あり学習アルゴリズムはモダリティ固有であることが多く、大量の … 続きを読む
Audio Tagging on an Embedded Hardware Platform
要約 畳み込みニューラル ネットワーク (CNN) は、さまざまな音声分類タスク … 続きを読む
ATCO2 corpus: A Large-Scale Dataset for Research on Automatic Speech Recognition and Natural Language Understanding of Air Traffic Control Communications
要約 パーソナル アシスタント、自動音声認識装置、対話理解システムは、相互接続さ … 続きを読む
SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data
要約 音声とテキストは異なる特徴を持つ非常に異なるモダリティであるため、テキスト … 続きを読む
Lexical Speaker Error Correction: Leveraging Language Models for Speaker Diarization Error Correction
要約 話者ダイアライゼーション (SD) は通常、自動音声認識 (ASR) シス … 続きを読む
Unsupervised speech enhancement with deep dynamical generative speech and noise models
要約 この研究は、クリーン音声モデルとして動的変分オートエンコーダ (DVAE) … 続きを読む
Modality Adaption or Regularization? A Case Study on End-to-End Speech Translation
要約 事前トレーニングと微調整は、エンドツーエンド音声翻訳 (E2E ST) に … 続きを読む
PolyVoice: Language Models for Speech to Speech Translation
要約 私たちは、言語モデルベースの音声翻訳 (S2ST) システムのフレームワー … 続きを読む
GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition
要約 Contrastive Language-Audio Pretrainin … 続きを読む
Multimodal Audio-textual Architecture for Robust Spoken Language Understanding
要約 最近の音声アシスタントは通常、自動音声認識 (ASR) エンジンと自然言語 … 続きを読む