eess.AS」カテゴリーアーカイブ

Efficient Self-supervised Learning with Contextualized Target Representations for Vision, Speech and Language

要約 現在の自己教師あり学習アルゴリズムはモダリティ固有であることが多く、大量の … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Efficient Self-supervised Learning with Contextualized Target Representations for Vision, Speech and Language はコメントを受け付けていません

Audio Tagging on an Embedded Hardware Platform

要約 畳み込みニューラル ネットワーク (CNN) は、さまざまな音声分類タスク … 続きを読む

カテゴリー: cs.AI, cs.SD, cs.SY, eess.AS, eess.SY | Audio Tagging on an Embedded Hardware Platform はコメントを受け付けていません

ATCO2 corpus: A Large-Scale Dataset for Research on Automatic Speech Recognition and Natural Language Understanding of Air Traffic Control Communications

要約 パーソナル アシスタント、自動音声認識装置、対話理解システムは、相互接続さ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | ATCO2 corpus: A Large-Scale Dataset for Research on Automatic Speech Recognition and Natural Language Understanding of Air Traffic Control Communications はコメントを受け付けていません

SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data

要約 音声とテキストは異なる特徴を持つ非常に異なるモダリティであるため、テキスト … 続きを読む

カテゴリー: cs.AI, cs.CL, eess.AS | SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data はコメントを受け付けていません

Lexical Speaker Error Correction: Leveraging Language Models for Speaker Diarization Error Correction

要約 話者ダイアライゼーション (SD) は通常、自動音声認識 (ASR) シス … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, eess.AS | Lexical Speaker Error Correction: Leveraging Language Models for Speaker Diarization Error Correction はコメントを受け付けていません

Unsupervised speech enhancement with deep dynamical generative speech and noise models

要約 この研究は、クリーン音声モデルとして動的変分オートエンコーダ (DVAE) … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Unsupervised speech enhancement with deep dynamical generative speech and noise models はコメントを受け付けていません

Modality Adaption or Regularization? A Case Study on End-to-End Speech Translation

要約 事前トレーニングと微調整は、エンドツーエンド音声翻訳 (E2E ST) に … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Modality Adaption or Regularization? A Case Study on End-to-End Speech Translation はコメントを受け付けていません

PolyVoice: Language Models for Speech to Speech Translation

要約 私たちは、言語モデルベースの音声翻訳 (S2ST) システムのフレームワー … 続きを読む

カテゴリー: cs.CL, eess.AS | PolyVoice: Language Models for Speech to Speech Translation はコメントを受け付けていません

GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition

要約 Contrastive Language-Audio Pretrainin … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition はコメントを受け付けていません

Multimodal Audio-textual Architecture for Robust Spoken Language Understanding

要約 最近の音声アシスタントは通常、自動音声認識 (ASR) エンジンと自然言語 … 続きを読む

カテゴリー: cs.CL, cs.LG, eess.AS | Multimodal Audio-textual Architecture for Robust Spoken Language Understanding はコメントを受け付けていません