eess.AS」カテゴリーアーカイブ

Back Transcription as a Method for Evaluating Robustness of Natural Language Understanding Models to Speech Recognition Errors

要約 音声対話システムでは、NLU モデルの前に音声認識システムが配置され、自然 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Back Transcription as a Method for Evaluating Robustness of Natural Language Understanding Models to Speech Recognition Errors はコメントを受け付けていません

ArTST: Arabic Text and Speech Transformer

要約 アラビア語のオープンソース音声技術をサポートするための、事前トレーニングさ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | ArTST: Arabic Text and Speech Transformer はコメントを受け付けていません

AV2Wav: Diffusion-Based Re-synthesis from Continuous Self-supervised Features for Audio-Visual Speech Enhancement

要約 音声強調システムは通常、きれいな音声とノイズのある音声のペアを使用してトレ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | AV2Wav: Diffusion-Based Re-synthesis from Continuous Self-supervised Features for Audio-Visual Speech Enhancement はコメントを受け付けていません

Novel-View Acoustic Synthesis from 3D Reconstructed Rooms

要約 私たちは、ブラインド オーディオ録音と 3D シーン情報を組み合わせて、新 … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Novel-View Acoustic Synthesis from 3D Reconstructed Rooms はコメントを受け付けていません

Definition-independent Formalization of Soundscapes: Towards a Formal Methodology

要約 サウンドスケープは、さまざまな分野の研究者によって研究されており、それぞれ … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Definition-independent Formalization of Soundscapes: Towards a Formal Methodology はコメントを受け付けていません

Two-Stage Triplet Loss Training with Curriculum Augmentation for Audio-Visual Retrieval

要約 クロスモーダル検索モデルは、三重損失最適化の可能性を活用して、堅牢な埋め込 … 続きを読む

カテゴリー: cs.CV, cs.IR, cs.MM, cs.SD, eess.AS | Two-Stage Triplet Loss Training with Curriculum Augmentation for Audio-Visual Retrieval はコメントを受け付けていません

Audio Editing with Non-Rigid Text Prompts

要約 このペーパーでは、非固定テキスト編集によるオーディオ編集について検討します … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Audio Editing with Non-Rigid Text Prompts はコメントを受け付けていません

Voicebox: Text-Guided Multilingual Universal Speech Generation at Scale

要約 GPT や DALL-E などの大規模な生成モデルは、研究コミュニティに革 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Voicebox: Text-Guided Multilingual Universal Speech Generation at Scale はコメントを受け付けていません

EmoDiarize: Speaker Diarization and Emotion Identification from Speech Signals using Convolutional Neural Networks

要約 高度な人工知能と人間とコンピューターの対話の時代では、話し言葉で感情を識別 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | EmoDiarize: Speaker Diarization and Emotion Identification from Speech Signals using Convolutional Neural Networks はコメントを受け付けていません

Reinforcement Learning and Bandits for Speech and Language Processing: Tutorial, Review and Outlook

要約 近年、強化学習とバンディットは、ヘルスケア、金融、レコメンデーション シス … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | Reinforcement Learning and Bandits for Speech and Language Processing: Tutorial, Review and Outlook はコメントを受け付けていません