eess.AS」カテゴリーアーカイブ

VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset

要約 タイトル:ビジョン・オーディオ・ランゲージ・オムニパーセプションの事前学習 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM, eess.AS | VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset はコメントを受け付けていません

Conditional Generation of Audio from Video via Foley Analogies

要約 タイトル:映像からの音声生成におけるFoleyアナロジーによる条件付け生成 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Conditional Generation of Audio from Video via Foley Analogies はコメントを受け付けていません

Efficient Sequence Transduction by Jointly Predicting Tokens and Durations

要約 タイトル:トークンと期間を共同予測することによる効率的なシーケンス変換 要 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Efficient Sequence Transduction by Jointly Predicting Tokens and Durations はコメントを受け付けていません

HCAM — Hierarchical Cross Attention Model for Multi-modal Emotion Recognition

要約 タイトル: HCAM – マルチモーダル感情認識のための階層的 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | HCAM — Hierarchical Cross Attention Model for Multi-modal Emotion Recognition はコメントを受け付けていません

Make More of Your Data: Minimal Effort Data Augmentation for Automatic Speech Recognition and Translation

要約 タイトル:自動音声認識と翻訳における最小限の努力データ拡張によるデータの最 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Make More of Your Data: Minimal Effort Data Augmentation for Automatic Speech Recognition and Translation はコメントを受け付けていません

On Data Sampling Strategies for Training Neural Network Speech Separation Models

要約 タイトル:ニューラルネットワーク音声分離モデルのトレーニングにおけるデータ … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.NE, cs.SD, eess.AS | On Data Sampling Strategies for Training Neural Network Speech Separation Models はコメントを受け付けていません

A Phoneme-Informed Neural Network Model for Note-Level Singing Transcription

要約 タイトル:音素情報を利用した音符レベル歌唱転写のニューラルネットワークモデ … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | A Phoneme-Informed Neural Network Model for Note-Level Singing Transcription はコメントを受け付けていません

Looking Similar, Sounding Different: Leveraging Counterfactual Cross-Modal Pairs for Audiovisual Representation Learning

要約 タイトル:外見は同じ、音は異なる:カウンターファクトのクロスモーダルペアを … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | Looking Similar, Sounding Different: Leveraging Counterfactual Cross-Modal Pairs for Audiovisual Representation Learning はコメントを受け付けていません

Soft Dynamic Time Warping for Multi-Pitch Estimation and Beyond

要約 タイトル:多重ピッチ推定におけるSoft Dynamic Time War … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Soft Dynamic Time Warping for Multi-Pitch Estimation and Beyond はコメントを受け付けていません

Music Mixing Style Transfer: A Contrastive Learning Approach to Disentangle Audio Effects

要約 タイトル:音楽ミキシングスタイルの転送:対比学習アプローチによるオーディオ … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Music Mixing Style Transfer: A Contrastive Learning Approach to Disentangle Audio Effects はコメントを受け付けていません