eess.AS」カテゴリーアーカイブ

Speech Driven Video Editing via an Audio-Conditioned Diffusion Model

要約 タイトル:音声条件付き拡散モデルによる音声駆動のビデオ編集 要約: &#8 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | Speech Driven Video Editing via an Audio-Conditioned Diffusion Model はコメントを受け付けていません

Modelling black-box audio effects with time-varying feature modulation

要約 タイトル:タイムバリング特徴調整を用いたブラックボックスオーディオエフェク … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Modelling black-box audio effects with time-varying feature modulation はコメントを受け付けていません

Exploration of Language Dependency for Japanese Self-Supervised Speech Representation Models

要約 タイトル:日本語の自己教師あり音声表現モデルにおける言語依存性の探索 要約 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Exploration of Language Dependency for Japanese Self-Supervised Speech Representation Models はコメントを受け付けていません

AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment

要約 タイトル: AlignSTS: クロスモーダルアライメントによる音声から歌 … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment はコメントを受け付けていません

AQ-GT: a Temporally Aligned and Quantized GRU-Transformer for Co-Speech Gesture Synthesis

要約 タイトル: AQ-GT:時系列に沿って整列され、量子化されたGRU-Tra … 続きを読む

カテゴリー: cs.GR, cs.HC, cs.LG, cs.SD, eess.AS | AQ-GT: a Temporally Aligned and Quantized GRU-Transformer for Co-Speech Gesture Synthesis はコメントを受け付けていません

Differentiable WORLD Synthesizer-based Neural Vocoder With Application To End-To-End Audio Style Transfer

要約 タイトル: Differentiable WORLD Synthesize … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Differentiable WORLD Synthesizer-based Neural Vocoder With Application To End-To-End Audio Style Transfer はコメントを受け付けていません

A Study on the Integration of Pipeline and E2E SLU systems for Spoken Semantic Parsing toward STOP Quality Challenge

要約 タイトル: STOP Quality Challengeに向けた話し言葉意 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | A Study on the Integration of Pipeline and E2E SLU systems for Spoken Semantic Parsing toward STOP Quality Challenge はコメントを受け付けていません

Unsupervised Improvement of Audio-Text Cross-Modal Representations

要約 タイトル: 非監視学習による音声テキストのクロスモーダル表現の改良 要約: … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Unsupervised Improvement of Audio-Text Cross-Modal Representations はコメントを受け付けていません

Exploring Softly Masked Language Modelling for Controllable Symbolic Music Generation

要約 タイトル: 制御可能なシンボリック音楽生成のためのSoftly Maske … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Exploring Softly Masked Language Modelling for Controllable Symbolic Music Generation はコメントを受け付けていません

A vector quantized masked autoencoder for audiovisual speech emotion recognition

要約 タイトル:音声視覚的話し言葉の感情認識のためのベクトル量子化マスクされたオ … 続きを読む

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | A vector quantized masked autoencoder for audiovisual speech emotion recognition はコメントを受け付けていません