eess.AS」カテゴリーアーカイブ

Structured Multi-Track Accompaniment Arrangement via Style Prior Modelling

要約 音楽 AI の分野では、シンプルなリードシートから豊かで構造化されたマルチ … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | Structured Multi-Track Accompaniment Arrangement via Style Prior Modelling はコメントを受け付けていません

Leveraging Reverberation and Visual Depth Cues for Sound Event Localization and Detection with Distance Estimation

要約 このレポートでは、DCASE2024 タスク 3 チャレンジ「音源距離推定 … 続きを読む

カテゴリー: cs.AI, eess.AS, eess.IV, eess.SP | Leveraging Reverberation and Visual Depth Cues for Sound Event Localization and Detection with Distance Estimation はコメントを受け付けていません

RankUp: Boosting Semi-Supervised Regression with an Auxiliary Ranking Classifier

要約 FixMatch やその亜種などの最先端 (SOTA) 半教師あり学習手法 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.SD, eess.AS | RankUp: Boosting Semi-Supervised Regression with an Auxiliary Ranking Classifier はコメントを受け付けていません

Towards Open Respiratory Acoustic Foundation Models: Pretraining and Benchmarking

要約 咳や呼吸音などの呼吸音には、幅広い医療用途を予測する力がありますが、現時点 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Towards Open Respiratory Acoustic Foundation Models: Pretraining and Benchmarking はコメントを受け付けていません

OmniSep: Unified Omni-Modality Sound Separation with Query-Mixup

要約 近年、スケールアップは視覚と言語の分野で大きな成功をもたらしました。 しか … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | OmniSep: Unified Omni-Modality Sound Separation with Query-Mixup はコメントを受け付けていません

Mask-Weighted Spatial Likelihood Coding for Speaker-Independent Joint Localization and Mask Estimation

要約 ニューラル駆動ビームフォーマーは、その堅牢性と柔軟性により、ノイズや残響と … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Mask-Weighted Spatial Likelihood Coding for Speaker-Independent Joint Localization and Mask Estimation はコメントを受け付けていません

Temporal Convolution-based Hybrid Model Approach with Representation Learning for Real-Time Acoustic Anomaly Detection

要約 産業機械コンポーネントの潜在的な故障を早期に検出することは、動作の信頼性と … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Temporal Convolution-based Hybrid Model Approach with Representation Learning for Real-Time Acoustic Anomaly Detection はコメントを受け付けていません

Arabic Music Classification and Generation using Deep Learning

要約 この論文は、エジプトの古典音楽と新しい音楽を作曲家ごとに分類し、類似した新 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Arabic Music Classification and Generation using Deep Learning はコメントを受け付けていません

We Augmented Whisper With kNN and You Won’t Believe What Came Next

要約 音声認識のパフォーマンスは、言語、ドメイン、アクセントなどの話者の特性によ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | We Augmented Whisper With kNN and You Won’t Believe What Came Next はコメントを受け付けていません

Taming Data and Transformers for Audio Generation

要約 環境音の生成は、データ不足とキャプションの品質が不十分なことが多いため、困 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SD, eess.AS | Taming Data and Transformers for Audio Generation はコメントを受け付けていません