cs.SD」カテゴリーアーカイブ

The Pipeline System of ASR and NLU with MLM-based Data Augmentation toward STOP Low-resource Challenge

要約 本論文では、ICASSP Signal Processing Grand … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | The Pipeline System of ASR and NLU with MLM-based Data Augmentation toward STOP Low-resource Challenge はコメントを受け付けていません

Speaker Diaphragm Excursion Prediction: deep attention and online adaptation

要約 スピーカ保護アルゴリズムは、再生信号の特性を活用し、特に小さなスピーカを持 … 続きを読む

カテゴリー: cs.AI, cs.IT, cs.SD, eess.AS, math.IT | Speaker Diaphragm Excursion Prediction: deep attention and online adaptation はコメントを受け付けていません

Knowledge Transfer For On-Device Speech Emotion Recognition with Neural Structured Learning

要約 音声感情認識(SER)は、ヒューマンコンピュータインタラクション(HCI) … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Knowledge Transfer For On-Device Speech Emotion Recognition with Neural Structured Learning はコメントを受け付けていません

CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model

要約 デノイジング拡散確率モデル(DDPM)は、音声合成において有望な性能を示し … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM, cs.SD, eess.AS | CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model はコメントを受け付けていません

V2Meow: Meowing to the Visual Beat via Music Generation

要約 タイトル:V2Meow:音楽生成によるビジュアルビートのミウシカ 要約: … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | V2Meow: Meowing to the Visual Beat via Music Generation はコメントを受け付けていません

Speech Driven Video Editing via an Audio-Conditioned Diffusion Model

要約 タイトル:音声条件付き拡散モデルによる音声駆動のビデオ編集 要約: &#8 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | Speech Driven Video Editing via an Audio-Conditioned Diffusion Model はコメントを受け付けていません

Modelling black-box audio effects with time-varying feature modulation

要約 タイトル:タイムバリング特徴調整を用いたブラックボックスオーディオエフェク … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Modelling black-box audio effects with time-varying feature modulation はコメントを受け付けていません

Exploration of Language Dependency for Japanese Self-Supervised Speech Representation Models

要約 タイトル:日本語の自己教師あり音声表現モデルにおける言語依存性の探索 要約 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Exploration of Language Dependency for Japanese Self-Supervised Speech Representation Models はコメントを受け付けていません

AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment

要約 タイトル: AlignSTS: クロスモーダルアライメントによる音声から歌 … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment はコメントを受け付けていません

AQ-GT: a Temporally Aligned and Quantized GRU-Transformer for Co-Speech Gesture Synthesis

要約 タイトル: AQ-GT:時系列に沿って整列され、量子化されたGRU-Tra … 続きを読む

カテゴリー: cs.GR, cs.HC, cs.LG, cs.SD, eess.AS | AQ-GT: a Temporally Aligned and Quantized GRU-Transformer for Co-Speech Gesture Synthesis はコメントを受け付けていません