「cs.SD」カテゴリーアーカイブ

Application of Knowledge Distillation to Multi-task Speech Representation Learning

投稿日: 2023年5月22日作成者: jarxiv

要約 wav2vec 2.0 や HuBERT などのモデルアーキテクチャは、 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

MIDI-Draw: Sketching to Control Melody Generation

投稿日: 2023年5月22日作成者: jarxiv

要約メロディーの輪郭を介して音符レベルの入力表現を抽象化する、メロディーを描画 … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning

投稿日: 2023年5月22日作成者: jarxiv

要約音声は人間が外界と通信するためのシンプルかつ効果的な方法ですが、より現実的 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.SD, eess.AS | コメントを受け付けていません

What You Hear Is What You See: Audio Quality Metrics From Image Quality Metrics

投稿日: 2023年5月22日作成者: jarxiv

要約この研究では、オーディオ信号をスペクトログラムとして表すことにより、オーデ … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Points2Sound: From mono to binaural audio using 3D point cloud scenes

投稿日: 2023年5月22日作成者: jarxiv

要約没入型アプリケーションの場合、仮想環境で人々に有意義な体験をもたらすために … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Any-to-Any Generation via Composable Diffusion

投稿日: 2023年5月22日作成者: jarxiv

要約我々は、入力モダリティの任意の組み合わせから、言語、画像、ビデオ、オーディ … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

FunASR: A Fundamental End-to-End Speech Recognition Toolkit

投稿日: 2023年5月19日作成者: jarxiv

要約このペーパーでは、学術研究と産業アプリケーションの間のギャップを埋めるため … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

A Comparative Study on E-Branchformer vs Conformer in Speech Recognition, Translation, and Understanding Tasks

投稿日: 2023年5月19日作成者: jarxiv

要約畳み込み拡張された Transformer の亜種である Conforme … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot Task Generalization

投稿日: 2023年5月19日作成者: jarxiv

要約私たちは、最近提案されたウェブスケールの音声モデル Whisper の新た … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

QPGesture: Quantization-Based and Phase-Guided Motion Matching for Natural Speech-Driven Gesture Generation

投稿日: 2023年5月19日作成者: jarxiv

要約人間の動作にはランダムなジッターがあるため、音声駆動のジェスチャ生成は非常 … 続きを読む →

カテゴリー: cs.CV, cs.HC, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

Application of Knowledge Distillation to Multi-task Speech Representation Learning

MIDI-Draw: Sketching to Control Melody Generation

VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning

What You Hear Is What You See: Audio Quality Metrics From Image Quality Metrics

Points2Sound: From mono to binaural audio using 3D point cloud scenes

Any-to-Any Generation via Composable Diffusion

FunASR: A Fundamental End-to-End Speech Recognition Toolkit

A Comparative Study on E-Branchformer vs Conformer in Speech Recognition, Translation, and Understanding Tasks

Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot Task Generalization

QPGesture: Quantization-Based and Phase-Guided Motion Matching for Natural Speech-Driven Gesture Generation

最近の投稿

最近のコメント

アーカイブ

カテゴリー