「cs.SD」カテゴリーアーカイブ

AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining

投稿日: 2023年8月11日作成者: jarxiv

要約オーディオ生成には、音声、音楽、効果音など、さまざまなタイプのオーディオに … 続きを読む →

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS, eess.SP | コメントを受け付けていません

Intel Labs at Ego4D Challenge 2022: A Better Baseline for Audio-Visual Diarization

投稿日: 2023年8月11日作成者: jarxiv

要約このレポートでは、Ego4D Challenge 2022 のオーディオビ … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

STHG: Spatial-Temporal Heterogeneous Graph Learning for Advanced Audio-Visual Diarization

投稿日: 2023年8月11日作成者: jarxiv

要約このレポートでは、Ego4D Challenge 2023 のオーディオビ … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Representation Learning for Audio Privacy Preservation using Source Separation and Robust Adversarial Learning

投稿日: 2023年8月10日作成者: jarxiv

要約プライバシーの保護は、システムの動作環境でターゲット信号とともに音声を受動 … 続きを読む →

カテゴリー: cs.CR, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Transferable Models for Bioacoustics with Human Language Supervision

投稿日: 2023年8月10日作成者: jarxiv

要約パッシブ音響モニタリングは、地球規模の生物多様性と種に対する人為的影響を追 … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS, q-bio.QM | コメントを受け付けていません

Unsupervised Out-of-Distribution Dialect Detection with Mahalanobis Distance

投稿日: 2023年8月10日作成者: jarxiv

要約方言分類は、システム全体のパフォーマンスを向上させるために、機械翻訳や音声 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Induction Network: Audio-Visual Modality Gap-Bridging for Self-Supervised Sound Source Localization

投稿日: 2023年8月10日作成者: jarxiv

要約自己教師による音源定位は、通常、モダリティの不一致によって困難になります。 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Separate Anything You Describe

投稿日: 2023年8月10日作成者: jarxiv

要約 Language-Queryed Audio Source Separat … 続きを読む →

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Advancing Natural-Language Based Audio Retrieval with PaSST and Large Audio-Caption Data Sets

投稿日: 2023年8月9日作成者: jarxiv

要約この研究では、事前トレーニングされたテキストとスペクトログラム変換器に基づ … 続きを読む →

カテゴリー: cs.IR, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Universal Automatic Phonetic Transcription into the International Phonetic Alphabet

投稿日: 2023年8月9日作成者: jarxiv

要約この論文では、あらゆる言語の音声を国際音声文字 (IPA) に転写するため … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining

Intel Labs at Ego4D Challenge 2022: A Better Baseline for Audio-Visual Diarization

STHG: Spatial-Temporal Heterogeneous Graph Learning for Advanced Audio-Visual Diarization

Representation Learning for Audio Privacy Preservation using Source Separation and Robust Adversarial Learning

Transferable Models for Bioacoustics with Human Language Supervision

Unsupervised Out-of-Distribution Dialect Detection with Mahalanobis Distance

Induction Network: Audio-Visual Modality Gap-Bridging for Self-Supervised Sound Source Localization

Separate Anything You Describe

Advancing Natural-Language Based Audio Retrieval with PaSST and Large Audio-Caption Data Sets

Universal Automatic Phonetic Transcription into the International Phonetic Alphabet

最近の投稿

最近のコメント

アーカイブ

カテゴリー