「eess.AS」カテゴリーアーカイブ

T-FOLEY: A Controllable Waveform-Domain Diffusion Model for Temporal-Event-Guided Foley Sound Synthesis

投稿日: 2024年1月18日作成者: jarxiv

要約フォーリーサウンド、つまりビデオと同時に挿入されるオーディオコンテンツ … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS, eess.SP | コメントを受け付けていません

An Explainable Proxy Model for Multiabel Audio Segmentation

投稿日: 2024年1月18日作成者: jarxiv

要約オーディオ信号のセグメンテーションは、自動オーディオインデックス作成の重 … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS, eess.SP | コメントを受け付けていません

From Coarse to Fine: Efficient Training for Audio Spectrogram Transformers

投稿日: 2024年1月17日作成者: jarxiv

要約トランスは、オーディオ分類における最近の進歩の中心となっています。ただし … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Towards General-Purpose Text-Instruction-Guided Voice Conversion

投稿日: 2024年1月17日作成者: jarxiv

要約この論文では、「深いトーンでゆっくり発音する」または「元気な少年のような声 … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

StemGen: A music generation model that listens

投稿日: 2024年1月17日作成者: jarxiv

要約深層学習技術を使用した音楽オーディオのエンドツーエンド生成は、最近爆発的に … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

MCMChaos: Improvising Rap Music with MCMC Methods and Chaos Theory

投稿日: 2024年1月17日作成者: jarxiv

要約先行研究で作成されたラップ音楽のトランスクリプションに基づく新しいフリース … 続きを読む →

カテゴリー: cs.CL, cs.HC, cs.SD, eess.AS | コメントを受け付けていません

SD-HuBERT: Sentence-Level Self-Distillation Induces Syllabic Organization in HuBERT

投稿日: 2024年1月17日作成者: jarxiv

要約音声の自己教師あり学習 (SSL) におけるデータ駆動型の単位発見により、 … 続きを読む →

カテゴリー: cs.CL, eess.AS | コメントを受け付けていません

Self-Supervised Models of Speech Infer Universal Articulatory Kinematics

投稿日: 2024年1月17日作成者: jarxiv

要約自己教師あり学習 (SSL) ベースの音声モデルは、さまざまな下流タスクで … 続きを読む →

カテゴリー: cs.CL, eess.AS | コメントを受け付けていません

Translatotron 3: Speech to Speech Translation with Monolingual Data

投稿日: 2024年1月17日作成者: jarxiv

要約この論文では、マスクされたオートエンコーダ、教師なし埋め込みマッピング、お … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Exploring Phonetic Context-Aware Lip-Sync For Talking Face Generation

投稿日: 2024年1月17日作成者: jarxiv

要約話し顔の生成は、特定の音声と正確に同期する必要がある、自然でリアルな顔を合 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.SD, eess.AS, eess.IV | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

T-FOLEY: A Controllable Waveform-Domain Diffusion Model for Temporal-Event-Guided Foley Sound Synthesis

An Explainable Proxy Model for Multiabel Audio Segmentation

From Coarse to Fine: Efficient Training for Audio Spectrogram Transformers

Towards General-Purpose Text-Instruction-Guided Voice Conversion

StemGen: A music generation model that listens

MCMChaos: Improvising Rap Music with MCMC Methods and Chaos Theory

SD-HuBERT: Sentence-Level Self-Distillation Induces Syllabic Organization in HuBERT

Self-Supervised Models of Speech Infer Universal Articulatory Kinematics

Translatotron 3: Speech to Speech Translation with Monolingual Data

Exploring Phonetic Context-Aware Lip-Sync For Talking Face Generation

最近の投稿

最近のコメント

アーカイブ

カテゴリー