eess.AS」カテゴリーアーカイブ

OmniSep: Unified Omni-Modality Sound Separation with Query-Mixup

要約 近年、スケールアップは視覚と言語の分野で大きな成功をもたらしました。 しか … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | OmniSep: Unified Omni-Modality Sound Separation with Query-Mixup はコメントを受け付けていません

Mask-Weighted Spatial Likelihood Coding for Speaker-Independent Joint Localization and Mask Estimation

要約 ニューラル駆動ビームフォーマーは、その堅牢性と柔軟性により、ノイズや残響と … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Mask-Weighted Spatial Likelihood Coding for Speaker-Independent Joint Localization and Mask Estimation はコメントを受け付けていません

Temporal Convolution-based Hybrid Model Approach with Representation Learning for Real-Time Acoustic Anomaly Detection

要約 産業機械コンポーネントの潜在的な故障を早期に検出することは、動作の信頼性と … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Temporal Convolution-based Hybrid Model Approach with Representation Learning for Real-Time Acoustic Anomaly Detection はコメントを受け付けていません

Arabic Music Classification and Generation using Deep Learning

要約 この論文は、エジプトの古典音楽と新しい音楽を作曲家ごとに分類し、類似した新 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Arabic Music Classification and Generation using Deep Learning はコメントを受け付けていません

We Augmented Whisper With kNN and You Won’t Believe What Came Next

要約 音声認識のパフォーマンスは、言語、ドメイン、アクセントなどの話者の特性によ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | We Augmented Whisper With kNN and You Won’t Believe What Came Next はコメントを受け付けていません

Taming Data and Transformers for Audio Generation

要約 環境音の生成は、データ不足とキャプションの品質が不十分なことが多いため、困 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SD, eess.AS | Taming Data and Transformers for Audio Generation はコメントを受け付けていません

OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation

要約 全二重音声対話システムは、人間と人間のやりとりを厳密に反映した同時双方向通 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation はコメントを受け付けていません

ELAICHI: Enhancing Low-resource TTS by Addressing Infrequent and Low-frequency Character Bigrams

要約 Text-to-Speech (TTS) テクノロジーの最近の進歩により、 … 続きを読む

カテゴリー: cs.CL, eess.AS | ELAICHI: Enhancing Low-resource TTS by Addressing Infrequent and Low-frequency Character Bigrams はコメントを受け付けていません

WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling

要約 言語モデルは、画像、ビデオ、音声、オーディオなどの自然信号のモデル化に効果 … 続きを読む

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS, eess.SP | WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling はコメントを受け付けていません

ControlSpeech: Towards Simultaneous Zero-shot Speaker Cloning and Zero-shot Language Style Control With Decoupled Codec

要約 この論文では、話者の音声を完全に複製し、数秒間の音声プロンプトと単純なテキ … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | ControlSpeech: Towards Simultaneous Zero-shot Speaker Cloning and Zero-shot Language Style Control With Decoupled Codec はコメントを受け付けていません