eess.AS」カテゴリーアーカイブ

Perceive and predict: self-supervised speech representation based loss functions for speech enhancement

要約 音声強調の分野における最近の研究では、ニューラル音声強調モデルのトレーニン … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Perceive and predict: self-supervised speech representation based loss functions for speech enhancement はコメントを受け付けていません

MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition and Robust Speech-to-Text Translation

要約 MuAViC は、9 つ​​の言語で 1200 時間のオーディオビジュアル … 続きを読む

カテゴリー: cs.CL, eess.AS | MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition and Robust Speech-to-Text Translation はコメントを受け付けていません

Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study

要約 ディープ ニューラル ネットワークは、最近、サウンド生成においてブレークス … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study はコメントを受け付けていません

Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec Language Modeling

要約 クロスリンガル音声合成のためのクロスリンガル ニューラル コーデック言語モ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec Language Modeling はコメントを受け付けていません

VOCALExplore: Pay-as-You-Go Video Data Exploration and Model Building

要約 ビデオデータセットに対するドメイン固有モデルの構築を支援するために設計され … 続きを読む

カテゴリー: cs.CV, cs.DB, cs.SD, eess.AS | VOCALExplore: Pay-as-You-Go Video Data Exploration and Model Building はコメントを受け付けていません

Compose & Embellish: Well-Structured Piano Performance Generation via A Two-Stage Approach

要約 Transformerのような強力なシーケンスモデルを用いても、長距離の音 … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | Compose & Embellish: Well-Structured Piano Performance Generation via A Two-Stage Approach はコメントを受け付けていません

Noise2Music: Text-conditioned Music Generation with Diffusion Models

要約 Noise2Musicを紹介する。ここでは、テキストプロンプトから高品質の … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Noise2Music: Text-conditioned Music Generation with Diffusion Models はコメントを受け付けていません

AudioGen: Textually Guided Audio Generation

要約 本研究では、説明的なテキストキャプションを条件とした音声サンプルの生成とい … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | AudioGen: Textually Guided Audio Generation はコメントを受け付けていません

A Sidecar Separator Can Convert a Single-Talker Speech Recognition System to a Multi-Talker One

要約 自動音声認識(ASR)は、一般的な非オーバーラッピング環境では優れた性能を … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | A Sidecar Separator Can Convert a Single-Talker Speech Recognition System to a Multi-Talker One はコメントを受け付けていません

IPA-CLIP: Integrating Phonetic Priors into Vision and Language Pretraining

要約 近年、大規模なVision and Language (V&L) … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | IPA-CLIP: Integrating Phonetic Priors into Vision and Language Pretraining はコメントを受け付けていません