cs.SD」カテゴリーアーカイブ

Application of Knowledge Distillation to Multi-task Speech Representation Learning

要約 wav2vec 2.0 や HuBERT などのモデル アーキテクチャは、 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Application of Knowledge Distillation to Multi-task Speech Representation Learning はコメントを受け付けていません

MIDI-Draw: Sketching to Control Melody Generation

要約 メロディーの輪郭を介して音符レベルの入力表現を抽象化する、メロディーを描画 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | MIDI-Draw: Sketching to Control Melody Generation はコメントを受け付けていません

VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning

要約 音声は人間が外界と通信するためのシンプルかつ効果的な方法ですが、より現実的 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.SD, eess.AS | VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning はコメントを受け付けていません

What You Hear Is What You See: Audio Quality Metrics From Image Quality Metrics

要約 この研究では、オーディオ信号をスペクトログラムとして表すことにより、オーデ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | What You Hear Is What You See: Audio Quality Metrics From Image Quality Metrics はコメントを受け付けていません

Points2Sound: From mono to binaural audio using 3D point cloud scenes

要約 没入型アプリケーションの場合、仮想環境で人々に有意義な体験をもたらすために … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Points2Sound: From mono to binaural audio using 3D point cloud scenes はコメントを受け付けていません

Any-to-Any Generation via Composable Diffusion

要約 我々は、入力モダリティの任意の組み合わせから、言語、画像、ビデオ、オーディ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.SD, eess.AS | Any-to-Any Generation via Composable Diffusion はコメントを受け付けていません

FunASR: A Fundamental End-to-End Speech Recognition Toolkit

要約 このペーパーでは、学術研究と産業アプリケーションの間のギャップを埋めるため … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | FunASR: A Fundamental End-to-End Speech Recognition Toolkit はコメントを受け付けていません

A Comparative Study on E-Branchformer vs Conformer in Speech Recognition, Translation, and Understanding Tasks

要約 畳み込み拡張された Transformer の亜種である Conforme … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | A Comparative Study on E-Branchformer vs Conformer in Speech Recognition, Translation, and Understanding Tasks はコメントを受け付けていません

Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot Task Generalization

要約 私たちは、最近提案されたウェブスケールの音声モデル Whisper の新た … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot Task Generalization はコメントを受け付けていません

QPGesture: Quantization-Based and Phase-Guided Motion Matching for Natural Speech-Driven Gesture Generation

要約 人間の動作にはランダムなジッターがあるため、音声駆動のジェスチャ生成は非常 … 続きを読む

カテゴリー: cs.CV, cs.HC, cs.MM, cs.SD, eess.AS | QPGesture: Quantization-Based and Phase-Guided Motion Matching for Natural Speech-Driven Gesture Generation はコメントを受け付けていません