eess.AS」カテゴリーアーカイブ

AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining

要約 オーディオ生成には、音声、音楽、効果音など、さまざまなタイプのオーディオに … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS, eess.SP | AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining はコメントを受け付けていません

Intel Labs at Ego4D Challenge 2022: A Better Baseline for Audio-Visual Diarization

要約 このレポートでは、Ego4D Challenge 2022 のオーディオビ … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Intel Labs at Ego4D Challenge 2022: A Better Baseline for Audio-Visual Diarization はコメントを受け付けていません

STHG: Spatial-Temporal Heterogeneous Graph Learning for Advanced Audio-Visual Diarization

要約 このレポートでは、Ego4D Challenge 2023 のオーディオビ … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | STHG: Spatial-Temporal Heterogeneous Graph Learning for Advanced Audio-Visual Diarization はコメントを受け付けていません

Representation Learning for Audio Privacy Preservation using Source Separation and Robust Adversarial Learning

要約 プライバシーの保護は、システムの動作環境でターゲット信号とともに音声を受動 … 続きを読む

カテゴリー: cs.CR, cs.LG, cs.SD, eess.AS | Representation Learning for Audio Privacy Preservation using Source Separation and Robust Adversarial Learning はコメントを受け付けていません

Transferable Models for Bioacoustics with Human Language Supervision

要約 パッシブ音響モニタリングは、地球規模の生物多様性と種に対する人為的影響を追 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS, q-bio.QM | Transferable Models for Bioacoustics with Human Language Supervision はコメントを受け付けていません

Unsupervised Out-of-Distribution Dialect Detection with Mahalanobis Distance

要約 方言分類は、システム全体のパフォーマンスを向上させるために、機械翻訳や音声 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS | Unsupervised Out-of-Distribution Dialect Detection with Mahalanobis Distance はコメントを受け付けていません

Induction Network: Audio-Visual Modality Gap-Bridging for Self-Supervised Sound Source Localization

要約 自己教師による音源定位は、通常、モダリティの不一致によって困難になります。 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | Induction Network: Audio-Visual Modality Gap-Bridging for Self-Supervised Sound Source Localization はコメントを受け付けていません

Separate Anything You Describe

要約 Language-Queryed Audio Source Separat … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | Separate Anything You Describe はコメントを受け付けていません

Diff-TTSG: Denoising probabilistic integrated speech and gesture synthesis

要約 読み上げ音声合成が高い自然性スコアを達成することで、自発的な音声の合成に対 … 続きを読む

カテゴリー: 68T07, 68T42, cs.AI, cs.CV, cs.HC, cs.LG, eess.AS, G.3 | Diff-TTSG: Denoising probabilistic integrated speech and gesture synthesis はコメントを受け付けていません

Advancing Natural-Language Based Audio Retrieval with PaSST and Large Audio-Caption Data Sets

要約 この研究では、事前トレーニングされたテキストとスペクトログラム変換器に基づ … 続きを読む

カテゴリー: cs.IR, cs.LG, cs.SD, eess.AS | Advancing Natural-Language Based Audio Retrieval with PaSST and Large Audio-Caption Data Sets はコメントを受け付けていません