「eess.AS」カテゴリーアーカイブ

BirdSet: A Multi-Task Benchmark for Classification in Avian Bioacoustics

投稿日: 2024年3月18日作成者: jarxiv

要約ディープラーニング (DL) モデルは、環境の健全性と生物多様性を診断する … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Joint Multimodal Transformer for Dimensional Emotional Recognition in the Wild

投稿日: 2024年3月18日作成者: jarxiv

要約ビデオにおける視聴覚感情認識 (ER) には、単峰性のパフォーマンスに比べ … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Lodge: A Coarse to Fine Diffusion Network for Long Dance Generation Guided by the Characteristic Dance Primitives

投稿日: 2024年3月18日作成者: jarxiv

要約私たちは、与えられた音楽に基づいて非常に長いダンスシーケンスを生成できる … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.SD, eess.AS | コメントを受け付けていません

uaMix-MAE: Efficient Tuning of Pretrained Audio Transformers with Unsupervised Audio Mixtures

投稿日: 2024年3月15日作成者: jarxiv

要約マスクされたオートエンコーダー (MAE) は、ラベルのないデータから豊富 … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Mixture of Mixups for Multi-label Classification of Rare Anuran Sounds

投稿日: 2024年3月15日作成者: jarxiv

要約マルチラベルの不均衡な分類は、機械学習において重大な課題を引き起こします。 … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

More than words: Advancements and challenges in speech recognition for singing

投稿日: 2024年3月15日作成者: jarxiv

要約この論文では、標準の音声認識とは明らかに異なる領域である、歌うための音声認 … 続きを読む →

カテゴリー: cs.CL, cs.IR, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

M&M: Multimodal-Multitask Model Integrating Audiovisual Cues in Cognitive Load Assessment

投稿日: 2024年3月15日作成者: jarxiv

要約この論文では、認知負荷評価 (CLA) 用の AVCAffe データセット … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Non-verbal information in spontaneous speech — towards a new framework of analysis

投稿日: 2024年3月14日作成者: jarxiv

要約音声内の非言語信号は韻律によってエンコードされ、会話の動作から態度、感情に … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Improving Acoustic Word Embeddings through Correspondence Training of Self-supervised Speech Representations

投稿日: 2024年3月14日作成者: jarxiv

要約音響単語埋め込み (AWE) は、話し言葉のベクトル表現です。 AWE を … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

StoRM: A Diffusion-based Stochastic Regeneration Model for Speech Enhancement and Dereverberation

投稿日: 2024年3月13日作成者: jarxiv

要約拡散モデルは、音声強調に対する予測アプローチと生成アプローチの間のパフォー … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

BirdSet: A Multi-Task Benchmark for Classification in Avian Bioacoustics

Joint Multimodal Transformer for Dimensional Emotional Recognition in the Wild

Lodge: A Coarse to Fine Diffusion Network for Long Dance Generation Guided by the Characteristic Dance Primitives

uaMix-MAE: Efficient Tuning of Pretrained Audio Transformers with Unsupervised Audio Mixtures

Mixture of Mixups for Multi-label Classification of Rare Anuran Sounds

More than words: Advancements and challenges in speech recognition for singing

M&M: Multimodal-Multitask Model Integrating Audiovisual Cues in Cognitive Load Assessment

Non-verbal information in spontaneous speech — towards a new framework of analysis

Improving Acoustic Word Embeddings through Correspondence Training of Self-supervised Speech Representations

StoRM: A Diffusion-based Stochastic Regeneration Model for Speech Enhancement and Dereverberation

最近の投稿

最近のコメント

アーカイブ

カテゴリー