「eess.AS」カテゴリーアーカイブ

AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes

投稿日: 2023年8月28日作成者: jarxiv

要約我々は、AudioFormer という名前のメソッドを提案します。このメソ … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

How to Estimate Model Transferability of Pre-Trained Speech Models?

投稿日: 2023年8月28日作成者: jarxiv

要約この研究では、ターゲットタスクを微調整するための事前トレーニング済み音声 … 続きを読む →

カテゴリー: cs.CL, cs.NE, cs.SD, eess.AS | コメントを受け付けていません

CryCeleb: A Speaker Verification Dataset Based on Infant Cry Sounds

投稿日: 2023年8月28日作成者: jarxiv

要約この論文では、幼児の泣き声のラベル付きコレクションである Ubenwa C … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

SpeechGen: Unlocking the Generative Power of Speech Language Models with Prompts

投稿日: 2023年8月28日作成者: jarxiv

要約大規模言語モデル (LLM) は、特に ChatGPT の出現により、人工 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, eess.AS | コメントを受け付けていません

Exploiting Diverse Feature for Multimodal Sentiment Analysis

投稿日: 2023年8月28日作成者: jarxiv

要約このペーパーでは、MuSe 2023 マルチモーダル感情分析チャレンジの … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Towards Automated Animal Density Estimation with Acoustic Spatial Capture-Recapture

投稿日: 2023年8月25日作成者: jarxiv

要約受動的音響モニタリングは、音響的には活動的だが視覚的に調査するのが難しい野 … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS, stat.ME | コメントを受け付けていません

MultiPA: a multi-task speech pronunciation assessment system for a closed and open response scenario

投稿日: 2023年8月25日作成者: jarxiv

要約自動音声発音評価の設計は、クローズド応答シナリオとオープン応答シナリオに分 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Real-time Detection of AI-Generated Speech for DeepFake Voice Conversion

投稿日: 2023年8月25日作成者: jarxiv

要約音声のクローン作成や、ある個人から別の個人へのリアルタイムの音声変換を可能 … 続きを読む →

カテゴリー: cs.CL, cs.HC, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

WavMark: Watermarking for Audio Generation

投稿日: 2023年8月25日作成者: jarxiv

要約ゼロショット音声合成における最近の進歩により、高レベルのリアリズムを維持し … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes

投稿日: 2023年8月24日作成者: jarxiv

要約我々は、AudioFormer という名前のメソッドを提案します。このメソ … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes

How to Estimate Model Transferability of Pre-Trained Speech Models?

CryCeleb: A Speaker Verification Dataset Based on Infant Cry Sounds

SpeechGen: Unlocking the Generative Power of Speech Language Models with Prompts

Exploiting Diverse Feature for Multimodal Sentiment Analysis

Towards Automated Animal Density Estimation with Acoustic Spatial Capture-Recapture

MultiPA: a multi-task speech pronunciation assessment system for a closed and open response scenario

Real-time Detection of AI-Generated Speech for DeepFake Voice Conversion

WavMark: Watermarking for Audio Generation

AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes

最近の投稿

最近のコメント

アーカイブ

カテゴリー