eess.AS」カテゴリーアーカイブ

uaMix-MAE: Efficient Tuning of Pretrained Audio Transformers with Unsupervised Audio Mixtures

要約 マスクされたオートエンコーダー (MAE) は、ラベルのないデータから豊富 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | uaMix-MAE: Efficient Tuning of Pretrained Audio Transformers with Unsupervised Audio Mixtures はコメントを受け付けていません

Mixture of Mixups for Multi-label Classification of Rare Anuran Sounds

要約 マルチラベルの不均衡な分類は、機械学習において重大な課題を引き起こします。 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Mixture of Mixups for Multi-label Classification of Rare Anuran Sounds はコメントを受け付けていません

More than words: Advancements and challenges in speech recognition for singing

要約 この論文では、標準の音声認識とは明らかに異なる領域である、歌うための音声認 … 続きを読む

カテゴリー: cs.CL, cs.IR, cs.LG, cs.SD, eess.AS | More than words: Advancements and challenges in speech recognition for singing はコメントを受け付けていません

M&M: Multimodal-Multitask Model Integrating Audiovisual Cues in Cognitive Load Assessment

要約 この論文では、認知負荷評価 (CLA) 用の AVCAffe データセット … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | M&M: Multimodal-Multitask Model Integrating Audiovisual Cues in Cognitive Load Assessment はコメントを受け付けていません

Non-verbal information in spontaneous speech — towards a new framework of analysis

要約 音声内の非言語信号は韻律によってエンコードされ、会話の動作から態度、感情に … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Non-verbal information in spontaneous speech — towards a new framework of analysis はコメントを受け付けていません

Improving Acoustic Word Embeddings through Correspondence Training of Self-supervised Speech Representations

要約 音響単語埋め込み (AWE) は、話し言葉のベクトル表現です。 AWE を … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Improving Acoustic Word Embeddings through Correspondence Training of Self-supervised Speech Representations はコメントを受け付けていません

StoRM: A Diffusion-based Stochastic Regeneration Model for Speech Enhancement and Dereverberation

要約 拡散モデルは、音声強調に対する予測アプローチと生成アプローチの間のパフォー … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | StoRM: A Diffusion-based Stochastic Regeneration Model for Speech Enhancement and Dereverberation はコメントを受け付けていません

Beyond the Labels: Unveiling Text-Dependency in Paralinguistic Speech Recognition Datasets

要約 認知負荷や感情などのパラ言語特性は、音声認識研究において極めて重要な領域と … 続きを読む

カテゴリー: cs.LG, eess.AS, eess.SP | Beyond the Labels: Unveiling Text-Dependency in Paralinguistic Speech Recognition Datasets はコメントを受け付けていません

Boosting keyword spotting through on-device learnable user speech characteristics

要約 常時稼働の TinyML 制約のあるアプリケーション用のキーワード スポッ … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Boosting keyword spotting through on-device learnable user speech characteristics はコメントを受け付けていません

An Audio-textual Diffusion Model For Converting Speech Signals Into Ultrasound Tongue Imaging Data

要約 音響-調音反転 (AAI) は、音声を超音波舌画像 (UTI) データなど … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | An Audio-textual Diffusion Model For Converting Speech Signals Into Ultrasound Tongue Imaging Data はコメントを受け付けていません