eess.AS」カテゴリーアーカイブ

T-FOLEY: A Controllable Waveform-Domain Diffusion Model for Temporal-Event-Guided Foley Sound Synthesis

要約 フォーリー サウンド、つまりビデオと同時に挿入されるオーディオ コンテンツ … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS, eess.SP | T-FOLEY: A Controllable Waveform-Domain Diffusion Model for Temporal-Event-Guided Foley Sound Synthesis はコメントを受け付けていません

An Explainable Proxy Model for Multiabel Audio Segmentation

要約 オーディオ信号のセグメンテーションは、自動オーディオ インデックス作成の重 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS, eess.SP | An Explainable Proxy Model for Multiabel Audio Segmentation はコメントを受け付けていません

From Coarse to Fine: Efficient Training for Audio Spectrogram Transformers

要約 トランスは、オーディオ分類における最近の進歩の中心となっています。 ただし … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | From Coarse to Fine: Efficient Training for Audio Spectrogram Transformers はコメントを受け付けていません

Towards General-Purpose Text-Instruction-Guided Voice Conversion

要約 この論文では、「深いトーンでゆっくり発音する」または「元気な少年のような声 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Towards General-Purpose Text-Instruction-Guided Voice Conversion はコメントを受け付けていません

StemGen: A music generation model that listens

要約 深層学習技術を使用した音楽オーディオのエンドツーエンド生成は、最近爆発的に … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | StemGen: A music generation model that listens はコメントを受け付けていません

MCMChaos: Improvising Rap Music with MCMC Methods and Chaos Theory

要約 先行研究で作成されたラップ音楽のトランスクリプションに基づく新しいフリース … 続きを読む

カテゴリー: cs.CL, cs.HC, cs.SD, eess.AS | MCMChaos: Improvising Rap Music with MCMC Methods and Chaos Theory はコメントを受け付けていません

SD-HuBERT: Sentence-Level Self-Distillation Induces Syllabic Organization in HuBERT

要約 音声の自己教師あり学習 (SSL) におけるデータ駆動型の単位発見により、 … 続きを読む

カテゴリー: cs.CL, eess.AS | SD-HuBERT: Sentence-Level Self-Distillation Induces Syllabic Organization in HuBERT はコメントを受け付けていません

Self-Supervised Models of Speech Infer Universal Articulatory Kinematics

要約 自己教師あり学習 (SSL) ベースの音声モデルは、さまざまな下流タスクで … 続きを読む

カテゴリー: cs.CL, eess.AS | Self-Supervised Models of Speech Infer Universal Articulatory Kinematics はコメントを受け付けていません

Translatotron 3: Speech to Speech Translation with Monolingual Data

要約 この論文では、マスクされたオートエンコーダ、教師なし埋め込みマッピング、お … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Translatotron 3: Speech to Speech Translation with Monolingual Data はコメントを受け付けていません

Exploring Phonetic Context-Aware Lip-Sync For Talking Face Generation

要約 話し顔の生成は、特定の音声と正確に同期する必要がある、自然でリアルな顔を合 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.SD, eess.AS, eess.IV | Exploring Phonetic Context-Aware Lip-Sync For Talking Face Generation はコメントを受け付けていません