「cs.SD」カテゴリーアーカイブ

Towards Open Respiratory Acoustic Foundation Models: Pretraining and Benchmarking

投稿日: 2024年10月29日作成者: jarxiv

要約咳や呼吸音などの呼吸音には、幅広い医療用途を予測する力がありますが、現時点 … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

OmniSep: Unified Omni-Modality Sound Separation with Query-Mixup

投稿日: 2024年10月29日作成者: jarxiv

要約近年、スケールアップは視覚と言語の分野で大きな成功をもたらしました。しか … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Mask-Weighted Spatial Likelihood Coding for Speaker-Independent Joint Localization and Mask Estimation

投稿日: 2024年10月28日作成者: jarxiv

要約ニューラル駆動ビームフォーマーは、その堅牢性と柔軟性により、ノイズや残響と … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Temporal Convolution-based Hybrid Model Approach with Representation Learning for Real-Time Acoustic Anomaly Detection

投稿日: 2024年10月28日作成者: jarxiv

要約産業機械コンポーネントの潜在的な故障を早期に検出することは、動作の信頼性と … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Arabic Music Classification and Generation using Deep Learning

投稿日: 2024年10月28日作成者: jarxiv

要約この論文は、エジプトの古典音楽と新しい音楽を作曲家ごとに分類し、類似した新 … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

We Augmented Whisper With kNN and You Won’t Believe What Came Next

投稿日: 2024年10月25日作成者: jarxiv

要約音声認識のパフォーマンスは、言語、ドメイン、アクセントなどの話者の特性によ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Taming Data and Transformers for Audio Generation

投稿日: 2024年10月25日作成者: jarxiv

要約環境音の生成は、データ不足とキャプションの品質が不十分なことが多いため、困 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation

投稿日: 2024年10月24日作成者: jarxiv

要約全二重音声対話システムは、人間と人間のやりとりを厳密に反映した同時双方向通 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling

投稿日: 2024年10月23日作成者: jarxiv

要約言語モデルは、画像、ビデオ、音声、オーディオなどの自然信号のモデル化に効果 … 続きを読む →

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS, eess.SP | コメントを受け付けていません

ControlSpeech: Towards Simultaneous Zero-shot Speaker Cloning and Zero-shot Language Style Control With Decoupled Codec

投稿日: 2024年10月23日作成者: jarxiv

要約この論文では、話者の音声を完全に複製し、数秒間の音声プロンプトと単純なテキ … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

Towards Open Respiratory Acoustic Foundation Models: Pretraining and Benchmarking

OmniSep: Unified Omni-Modality Sound Separation with Query-Mixup

Mask-Weighted Spatial Likelihood Coding for Speaker-Independent Joint Localization and Mask Estimation

Temporal Convolution-based Hybrid Model Approach with Representation Learning for Real-Time Acoustic Anomaly Detection

Arabic Music Classification and Generation using Deep Learning

We Augmented Whisper With kNN and You Won’t Believe What Came Next

Taming Data and Transformers for Audio Generation

OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation

WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling

ControlSpeech: Towards Simultaneous Zero-shot Speaker Cloning and Zero-shot Language Style Control With Decoupled Codec

最近の投稿

最近のコメント

アーカイブ

カテゴリー