cs.SD」カテゴリーアーカイブ

Active Bird2Vec: Towards End-to-End Bird Sound Monitoring with Transformers

要約 私たちは、自己教師あり (SSL) とディープアクティブラーニング (DA … 続きを読む

カテゴリー: cs.HC, cs.LG, cs.SD, eess.AS | Active Bird2Vec: Towards End-to-End Bird Sound Monitoring with Transformers はコメントを受け付けていません

PitchNet: A Fully Convolutional Neural Network for Pitch Estimation

要約 音楽とサウンド処理の分野では、ピッチ抽出が極めて重要な役割を果たします。 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | PitchNet: A Fully Convolutional Neural Network for Pitch Estimation はコメントを受け付けていません

AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes

要約 私たちは、AudioFormer という名前のメソッドを提案します。このメ … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes はコメントを受け付けていません

DiffSED: Sound Event Detection with Denoising Diffusion

要約 サウンド イベント検出 (SED) は、制約のないオーディオ サンプルを前 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | DiffSED: Sound Event Detection with Denoising Diffusion はコメントを受け付けていません

SpeechX: Neural Codec Language Model as a Versatile Speech Transformer

要約 音声テキスト プロンプトに基づく生成音声モデルの最近の進歩により、高品質の … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | SpeechX: Neural Codec Language Model as a Versatile Speech Transformer はコメントを受け付けていません

Temporal Modeling Matters: A Novel Temporal Emotional Modeling Approach for Speech Emotion Recognition

要約 音声感情認識 (SER) は、音声信号から人間の感情や感情状態を推測するこ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Temporal Modeling Matters: A Novel Temporal Emotional Modeling Approach for Speech Emotion Recognition はコメントを受け付けていません

Pretraining Respiratory Sound Representations using Metadata and Contrastive Learning

要約 エンドツーエンド方式でアノテーションを使用する教師あり学習に基づく方法は、 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Pretraining Respiratory Sound Representations using Metadata and Contrastive Learning はコメントを受け付けていません

Detection and classification of vocal productions in large scale audio recordings

要約 私たちは、大規模な自然音声録音から音声作品を抽出し、これらの音声作品を分類 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS, stat.AP | Detection and classification of vocal productions in large scale audio recordings はコメントを受け付けていません

There is more than one kind of robustness: Fooling Whisper with adversarial examples

要約 Whisper は、分布外の入力とランダム ノイズの両方に対して優れた堅牢 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | There is more than one kind of robustness: Fooling Whisper with adversarial examples はコメントを受け付けていません

A Compact End-to-End Model with Local and Global Context for Spoken Language Identification

要約 ContextNet アーキテクチャに基づいた音声言語識別 (LID) 用 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | A Compact End-to-End Model with Local and Global Context for Spoken Language Identification はコメントを受け付けていません