cs.SD」カテゴリーアーカイブ

Active Noise Control Portable Device Design

要約 私たちの世界は、私たちが楽しまずにはいられない独自の自然音で満たされている … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Active Noise Control Portable Device Design はコメントを受け付けていません

Controllable Music Production with Diffusion Models and Guidance Gradients

要約 拡散モデルからの条件付き生成を使用して、サンプリング時間ガイダンスを使用し … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Controllable Music Production with Diffusion Models and Guidance Gradients はコメントを受け付けていません

Detecting Syllable-Level Pronunciation Stress with A Self-Attention Model

要約 効果的な口頭コミュニケーションの前提条件の 1 つは、特に非母語話者にとっ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Detecting Syllable-Level Pronunciation Stress with A Self-Attention Model はコメントを受け付けていません

Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling

要約 事前トレーニングされた音声認識モデルのサイズが大きくなるにつれて、これらの … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling はコメントを受け付けていません

SegAugment: Maximizing the Utility of Speech Translation Data with Segmentation-based Augmentations

要約 エンドツーエンドの音声翻訳は、利用可能なデータ リソースの不足によって妨げ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | SegAugment: Maximizing the Utility of Speech Translation Data with Segmentation-based Augmentations はコメントを受け付けていません

Deep Neural Networks for Automatic Speaker Recognition Do Not Learn Supra-Segmental Temporal Features

要約 ディープ ニューラル ネットワークは、自動話者認識および関連タスクにおいて … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | Deep Neural Networks for Automatic Speaker Recognition Do Not Learn Supra-Segmental Temporal Features はコメントを受け付けていません

LAVSS: Location-Guided Audio-Visual Spatial Audio Separation

要約 既存の機械学習研究は、モノラル視聴覚分離 (MAVS) において有望な結果 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | LAVSS: Location-Guided Audio-Visual Spatial Audio Separation はコメントを受け付けていません

CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model

要約 ノイズ除去拡散確率モデル (DDPM) は、音声合成において有望なパフォー … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM, cs.SD, eess.AS | CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model はコメントを受け付けていません

Exploring the Emotional Landscape of Music: An Analysis of Valence Trends and Genre Variations in Spotify Music Data

要約 この論文では、Spotify の音楽データを使用して、Spotify AP … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Exploring the Emotional Landscape of Music: An Analysis of Valence Trends and Genre Variations in Spotify Music Data はコメントを受け付けていません

Intel Labs at Ego4D Challenge 2022: A Better Baseline for Audio-Visual Diarization

要約 このレポートでは、Ego4D Challenge 2022 のオーディオビ … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Intel Labs at Ego4D Challenge 2022: A Better Baseline for Audio-Visual Diarization はコメントを受け付けていません