eess.AS」カテゴリーアーカイブ

Whose Emotion Matters? Speaking Activity Localisation without Prior Knowledge

要約 会話中の感情認識 (ERC) のタスクは、たとえばビデオベースの Mult … 続きを読む

カテゴリー: 68T20, cs.CV, cs.LG, cs.NE, cs.SD, eess.AS, I.2.0 | Whose Emotion Matters? Speaking Activity Localisation without Prior Knowledge はコメントを受け付けていません

AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes

要約 我々は、AudioFormer という名前のメソッドを提案します。このメソ … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes はコメントを受け付けていません

iSTFTNet2: Faster and More Lightweight iSTFT-Based Neural Vocoder Using 1D-2D CNN

要約 逆短時間フーリエ変換ネットワーク (iSTFTNet) は、高速、軽量、高 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS, stat.ML | iSTFTNet2: Faster and More Lightweight iSTFT-Based Neural Vocoder Using 1D-2D CNN はコメントを受け付けていません

Active Bird2Vec: Towards End-to-End Bird Sound Monitoring with Transformers

要約 私たちは、自己教師あり (SSL) とディープアクティブラーニング (DA … 続きを読む

カテゴリー: cs.HC, cs.LG, cs.SD, eess.AS | Active Bird2Vec: Towards End-to-End Bird Sound Monitoring with Transformers はコメントを受け付けていません

PitchNet: A Fully Convolutional Neural Network for Pitch Estimation

要約 音楽とサウンド処理の分野では、ピッチ抽出が極めて重要な役割を果たします。 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | PitchNet: A Fully Convolutional Neural Network for Pitch Estimation はコメントを受け付けていません

AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes

要約 私たちは、AudioFormer という名前のメソッドを提案します。このメ … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes はコメントを受け付けていません

DiffSED: Sound Event Detection with Denoising Diffusion

要約 サウンド イベント検出 (SED) は、制約のないオーディオ サンプルを前 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | DiffSED: Sound Event Detection with Denoising Diffusion はコメントを受け付けていません

SpeechX: Neural Codec Language Model as a Versatile Speech Transformer

要約 音声テキスト プロンプトに基づく生成音声モデルの最近の進歩により、高品質の … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | SpeechX: Neural Codec Language Model as a Versatile Speech Transformer はコメントを受け付けていません

Temporal Modeling Matters: A Novel Temporal Emotional Modeling Approach for Speech Emotion Recognition

要約 音声感情認識 (SER) は、音声信号から人間の感情や感情状態を推測するこ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Temporal Modeling Matters: A Novel Temporal Emotional Modeling Approach for Speech Emotion Recognition はコメントを受け付けていません

Pretraining Respiratory Sound Representations using Metadata and Contrastive Learning

要約 エンドツーエンド方式でアノテーションを使用する教師あり学習に基づく方法は、 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Pretraining Respiratory Sound Representations using Metadata and Contrastive Learning はコメントを受け付けていません