eess.AS」カテゴリーアーカイブ

AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes

要約 我々は、AudioFormer という名前のメソッドを提案します。このメソ … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes はコメントを受け付けていません

How to Estimate Model Transferability of Pre-Trained Speech Models?

要約 この研究では、ターゲット タスクを微調整するための事前トレーニング済み音声 … 続きを読む

カテゴリー: cs.CL, cs.NE, cs.SD, eess.AS | How to Estimate Model Transferability of Pre-Trained Speech Models? はコメントを受け付けていません

CryCeleb: A Speaker Verification Dataset Based on Infant Cry Sounds

要約 この論文では、幼児の泣き声のラベル付きコレクションである Ubenwa C … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | CryCeleb: A Speaker Verification Dataset Based on Infant Cry Sounds はコメントを受け付けていません

SpeechGen: Unlocking the Generative Power of Speech Language Models with Prompts

要約 大規模言語モデル (LLM) は、特に ChatGPT の出現により、人工 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, eess.AS | SpeechGen: Unlocking the Generative Power of Speech Language Models with Prompts はコメントを受け付けていません

Exploiting Diverse Feature for Multimodal Sentiment Analysis

要約 このペーパーでは、MuSe 2023 マルチモーダル感情分析チャレンジの … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Exploiting Diverse Feature for Multimodal Sentiment Analysis はコメントを受け付けていません

Towards Automated Animal Density Estimation with Acoustic Spatial Capture-Recapture

要約 受動的音響モニタリングは、音響的には活動的だが視覚的に調査するのが難しい野 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS, stat.ME | Towards Automated Animal Density Estimation with Acoustic Spatial Capture-Recapture はコメントを受け付けていません

MultiPA: a multi-task speech pronunciation assessment system for a closed and open response scenario

要約 自動音声発音評価の設計は、クローズド応答シナリオとオープン応答シナリオに分 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | MultiPA: a multi-task speech pronunciation assessment system for a closed and open response scenario はコメントを受け付けていません

Real-time Detection of AI-Generated Speech for DeepFake Voice Conversion

要約 音声のクローン作成や、ある個人から別の個人へのリアルタイムの音声変換を可能 … 続きを読む

カテゴリー: cs.CL, cs.HC, cs.LG, cs.SD, eess.AS | Real-time Detection of AI-Generated Speech for DeepFake Voice Conversion はコメントを受け付けていません

WavMark: Watermarking for Audio Generation

要約 ゼロショット音声合成における最近の進歩により、高レベルのリアリズムを維持し … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | WavMark: Watermarking for Audio Generation はコメントを受け付けていません

AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes

要約 我々は、AudioFormer という名前のメソッドを提案します。このメソ … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes はコメントを受け付けていません