eess.AS」カテゴリーアーカイブ

BirdSet: A Multi-Task Benchmark for Classification in Avian Bioacoustics

要約 ディープラーニング (DL) モデルは、環境の健全性と生物多様性を診断する … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | BirdSet: A Multi-Task Benchmark for Classification in Avian Bioacoustics はコメントを受け付けていません

Joint Multimodal Transformer for Dimensional Emotional Recognition in the Wild

要約 ビデオにおける視聴覚感情認識 (ER) には、単峰性のパフォーマンスに比べ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | Joint Multimodal Transformer for Dimensional Emotional Recognition in the Wild はコメントを受け付けていません

Lodge: A Coarse to Fine Diffusion Network for Long Dance Generation Guided by the Characteristic Dance Primitives

要約 私たちは、与えられた音楽に基づいて非常に長いダンス シーケンスを生成できる … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.SD, eess.AS | Lodge: A Coarse to Fine Diffusion Network for Long Dance Generation Guided by the Characteristic Dance Primitives はコメントを受け付けていません

uaMix-MAE: Efficient Tuning of Pretrained Audio Transformers with Unsupervised Audio Mixtures

要約 マスクされたオートエンコーダー (MAE) は、ラベルのないデータから豊富 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | uaMix-MAE: Efficient Tuning of Pretrained Audio Transformers with Unsupervised Audio Mixtures はコメントを受け付けていません

Mixture of Mixups for Multi-label Classification of Rare Anuran Sounds

要約 マルチラベルの不均衡な分類は、機械学習において重大な課題を引き起こします。 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Mixture of Mixups for Multi-label Classification of Rare Anuran Sounds はコメントを受け付けていません

More than words: Advancements and challenges in speech recognition for singing

要約 この論文では、標準の音声認識とは明らかに異なる領域である、歌うための音声認 … 続きを読む

カテゴリー: cs.CL, cs.IR, cs.LG, cs.SD, eess.AS | More than words: Advancements and challenges in speech recognition for singing はコメントを受け付けていません

M&M: Multimodal-Multitask Model Integrating Audiovisual Cues in Cognitive Load Assessment

要約 この論文では、認知負荷評価 (CLA) 用の AVCAffe データセット … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | M&M: Multimodal-Multitask Model Integrating Audiovisual Cues in Cognitive Load Assessment はコメントを受け付けていません

Non-verbal information in spontaneous speech — towards a new framework of analysis

要約 音声内の非言語信号は韻律によってエンコードされ、会話の動作から態度、感情に … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Non-verbal information in spontaneous speech — towards a new framework of analysis はコメントを受け付けていません

Improving Acoustic Word Embeddings through Correspondence Training of Self-supervised Speech Representations

要約 音響単語埋め込み (AWE) は、話し言葉のベクトル表現です。 AWE を … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Improving Acoustic Word Embeddings through Correspondence Training of Self-supervised Speech Representations はコメントを受け付けていません

StoRM: A Diffusion-based Stochastic Regeneration Model for Speech Enhancement and Dereverberation

要約 拡散モデルは、音声強調に対する予測アプローチと生成アプローチの間のパフォー … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | StoRM: A Diffusion-based Stochastic Regeneration Model for Speech Enhancement and Dereverberation はコメントを受け付けていません