「cs.SD」カテゴリーアーカイブ

MARBLE: Music Audio Representation Benchmark for Universal Evaluation

投稿日: 2023年6月22日作成者: jarxiv

要約画像生成やフィクションの共同制作など、アートと人工知能 (AI) が広範に … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Deep neural network techniques for monaural speech enhancement: state of the art analysis

投稿日: 2023年6月21日作成者: jarxiv

要約ディープニューラルネットワーク (DNN) 技術は、自然言語処理やコン … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Word Discovery in Visually Grounded, Self-Supervised Speech Models

投稿日: 2023年6月21日作成者: jarxiv

要約視覚に基づいた話し言葉の発見方法を紹介します。 HuBERT または wa … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Multi-pass Training and Cross-information Fusion for Low-resource End-to-end Accented Speech Recognition

投稿日: 2023年6月21日作成者: jarxiv

要約低リソースのアクセント音声認識は、実際のアプリケーションにおいて現在の A … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS, eess.SP | コメントを受け付けていません

Align, Adapt and Inject: Sound-guided Unified Image Generation

投稿日: 2023年6月21日作成者: jarxiv

要約テキストガイドによる画像生成は、拡散モデルの開発により前例のない進歩を遂げ … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.SD, eess.AS | コメントを受け付けていません

Correlation Clustering of Bird Sounds

投稿日: 2023年6月19日作成者: jarxiv

要約鳥の鳴き声の分類は、あらゆる音声記録を、その記録で聞こえる鳥の種類に関連付 … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition

投稿日: 2023年6月19日作成者: jarxiv

要約対照学習ベースの事前トレーニング方法は、最近、さまざまな分野で目覚ましい成 … 続きを読む →

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

On Data Sampling Strategies for Training Neural Network Speech Separation Models

投稿日: 2023年6月19日作成者: jarxiv

要約音声分離は依然としてマルチスピーカー信号処理の重要な領域です。ディープ … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.NE, cs.SD, eess.AS | コメントを受け付けていません

Evaluation of Speech Representations for MOS prediction

投稿日: 2023年6月19日作成者: jarxiv

要約この論文では、音声品質を予測するための特徴抽出モデルを評価します。また、 … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels

投稿日: 2023年6月19日作成者: jarxiv

要約オーディオビジュアル音声認識は、音響ノイズに対する堅牢性により多くの注目を … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

MARBLE: Music Audio Representation Benchmark for Universal Evaluation

Deep neural network techniques for monaural speech enhancement: state of the art analysis

Word Discovery in Visually Grounded, Self-Supervised Speech Models

Multi-pass Training and Cross-information Fusion for Low-resource End-to-end Accented Speech Recognition

Align, Adapt and Inject: Sound-guided Unified Image Generation

Correlation Clustering of Bird Sounds

GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition

On Data Sampling Strategies for Training Neural Network Speech Separation Models

Evaluation of Speech Representations for MOS prediction

Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels

最近の投稿

最近のコメント

アーカイブ

カテゴリー