「eess.AS」カテゴリーアーカイブ

MIDI-Draw: Sketching to Control Melody Generation

投稿日: 2023年5月22日作成者: jarxiv

要約メロディーの輪郭を介して音符レベルの入力表現を抽象化する、メロディーを描画 … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning

投稿日: 2023年5月22日作成者: jarxiv

要約音声は人間が外界と通信するためのシンプルかつ効果的な方法ですが、より現実的 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.SD, eess.AS | コメントを受け付けていません

What You Hear Is What You See: Audio Quality Metrics From Image Quality Metrics

投稿日: 2023年5月22日作成者: jarxiv

要約この研究では、オーディオ信号をスペクトログラムとして表すことにより、オーデ … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Points2Sound: From mono to binaural audio using 3D point cloud scenes

投稿日: 2023年5月22日作成者: jarxiv

要約没入型アプリケーションの場合、仮想環境で人々に有意義な体験をもたらすために … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Any-to-Any Generation via Composable Diffusion

投稿日: 2023年5月22日作成者: jarxiv

要約我々は、入力モダリティの任意の組み合わせから、言語、画像、ビデオ、オーディ … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Making More of Little Data: Improving Low-Resource Automatic Speech Recognition Using Data Augmentation

投稿日: 2023年5月22日作成者: jarxiv

要約自動音声認識 (ASR) システムのパフォーマンスは、近年、特に大量の音声 … 続きを読む →

カテゴリー: cs.CL, eess.AS | コメントを受け付けていません

mdctGAN: Taming transformer-based GAN for speech super-resolution with Modified DCT spectra

投稿日: 2023年5月22日作成者: jarxiv

要約音声超解像度 (SSR) は、対応する低解像度 (LR) 音声から高解像度 … 続きを読む →

カテゴリー: cs.AI, eess.AS | コメントを受け付けていません

Making More of Little Data: Improving Low-Resource Automatic Speech Recognition Using Data Augmentation

投稿日: 2023年5月19日作成者: jarxiv

要約自動音声認識 (ASR) システムのパフォーマンスは、近年、特に大量の音声 … 続きを読む →

カテゴリー: cs.CL, eess.AS | コメントを受け付けていません

FunASR: A Fundamental End-to-End Speech Recognition Toolkit

投稿日: 2023年5月19日作成者: jarxiv

要約このペーパーでは、学術研究と産業アプリケーションの間のギャップを埋めるため … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Self-supervised Fine-tuning for Improved Content Representations by Speaker-invariant Clustering

投稿日: 2023年5月19日作成者: jarxiv

要約自己教師あり音声表現モデルはさまざまなタスクで成功していますが、ラベルなし … 続きを読む →

カテゴリー: cs.CL, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

MIDI-Draw: Sketching to Control Melody Generation

VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning

What You Hear Is What You See: Audio Quality Metrics From Image Quality Metrics

Points2Sound: From mono to binaural audio using 3D point cloud scenes

Any-to-Any Generation via Composable Diffusion

Making More of Little Data: Improving Low-Resource Automatic Speech Recognition Using Data Augmentation

mdctGAN: Taming transformer-based GAN for speech super-resolution with Modified DCT spectra

Making More of Little Data: Improving Low-Resource Automatic Speech Recognition Using Data Augmentation

FunASR: A Fundamental End-to-End Speech Recognition Toolkit

Self-supervised Fine-tuning for Improved Content Representations by Speaker-invariant Clustering

最近の投稿

最近のコメント

アーカイブ

カテゴリー