「cs.SD」カテゴリーアーカイブ

Improving Sound Source Localization with Joint Slot Attention on Image and Audio

投稿日: 2025年4月22日作成者: jarxiv

要約サウンドソースのローカリゼーション（SSL）は、画像内の音源を見つけるタス … 続きを読む →

カテゴリー: cs.CV, cs.SD | コメントを受け付けていません

Collective Learning Mechanism based Optimal Transport Generative Adversarial Network for Non-parallel Voice Conversion

投稿日: 2025年4月21日作成者: jarxiv

要約画像合成に大きな成功を示した後、生成敵対的ネットワーク（GAN）モデルは同 … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

A Multi-task Learning Balanced Attention Convolutional Neural Network Model for Few-shot Underwater Acoustic Target Recognition

投稿日: 2025年4月18日作成者: jarxiv

要約水中音響ターゲット認識（UATR）は、海洋の多様性と国防の安全を保護するた … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Dysarthria Normalization via Local Lie Group Transformations for Robust ASR

投稿日: 2025年4月17日作成者: jarxiv

要約スペクトログラムのローカルリーグループ変換を使用して、ダイサルトリック音声 … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Taming Data and Transformers for Audio Generation

投稿日: 2025年4月17日作成者: jarxiv

要約アンビエントサウンドジェネレーターのスケーラビリティは、データ不足、キャプ … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

SpoofCeleb: Speech Deepfake Detection and SASV In The Wild

投稿日: 2025年4月16日作成者: jarxiv

要約このペーパーでは、音声ディープファーク検出（SDD）およびスプーフィングの … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

EchoMask: Speech-Queried Attention-based Mask Modeling for Holistic Co-Speech Motion Generation

投稿日: 2025年4月16日作成者: jarxiv

要約マスクされたモデリングフレームワークは、共和声モーション生成に有望を示して … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.SD | コメントを受け付けていません

AutoStyle-TTS: Retrieval-Augmented Generation based Automatic Style Matching Text-to-Speech Synthesis

投稿日: 2025年4月15日作成者: jarxiv

要約音声合成技術の進歩により、ユーザーは合成された音声の自然性と表現力に対する … 続きを読む →

カテゴリー: cs.AI, cs.SD | コメントを受け付けていません

Generalized Multilingual Text-to-Speech Generation with Language-Aware Style Adaptation

投稿日: 2025年4月14日作成者: jarxiv

要約テキストツースピーチ（TTS）モデルは、音素を波形に変換することにより、複 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

On The Landscape of Spoken Language Models: A Comprehensive Survey

投稿日: 2025年4月14日作成者: jarxiv

要約音声言語処理の分野は、普遍的な音声処理システムとして機能するカスタム構築の … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

Improving Sound Source Localization with Joint Slot Attention on Image and Audio

Collective Learning Mechanism based Optimal Transport Generative Adversarial Network for Non-parallel Voice Conversion

A Multi-task Learning Balanced Attention Convolutional Neural Network Model for Few-shot Underwater Acoustic Target Recognition

Dysarthria Normalization via Local Lie Group Transformations for Robust ASR

Taming Data and Transformers for Audio Generation

SpoofCeleb: Speech Deepfake Detection and SASV In The Wild

EchoMask: Speech-Queried Attention-based Mask Modeling for Holistic Co-Speech Motion Generation

AutoStyle-TTS: Retrieval-Augmented Generation based Automatic Style Matching Text-to-Speech Synthesis

Generalized Multilingual Text-to-Speech Generation with Language-Aware Style Adaptation

On The Landscape of Spoken Language Models: A Comprehensive Survey

最近の投稿

最近のコメント

アーカイブ

カテゴリー