
Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels

要約 オーディオビジュアル音声認識は、音響ノイズに対する堅牢性により多くの注目を … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels はコメントを受け付けていません

RealImpact: A Dataset of Impact Sound Fields for Real Objects

要約 物体は、さまざまな摂動、環境条件、リスナーに対する姿勢の下で独特の音を出し … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.SD, eess.AS | RealImpact: A Dataset of Impact Sound Fields for Real Objects はコメントを受け付けていません

Few-shot bioacoustic event detection at the DCASE 2023 challenge

要約 フューショット生体音響イベント検出では、対象クラスの少数の例のみにアクセス … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Few-shot bioacoustic event detection at the DCASE 2023 challenge はコメントを受け付けていません

Pushing the Limits of Unsupervised Unit Discovery for SSL Speech Representation

要約 音声基礎モデルの自己教師あり学習 (SSL) の優れた一般化能力が大きな注 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Pushing the Limits of Unsupervised Unit Discovery for SSL Speech Representation はコメントを受け付けていません

KIT’s Multilingual Speech Translation System for IWSLT 2023

要約 既存の音声翻訳ベンチマークの多くは、高品質の録音条件でのネイティブ英語の音 … 続きを読む

カテゴリー: cs.CL, cs.SD | KIT’s Multilingual Speech Translation System for IWSLT 2023 はコメントを受け付けていません

Inconsistency Ranking-based Noisy Label Detection for High-quality Data

要約 ディープラーニングを成功させるには、注釈付きの高品質で大量のデータが必要で … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Inconsistency Ranking-based Noisy Label Detection for High-quality Data はコメントを受け付けていません

Efficient Self-supervised Learning with Contextualized Target Representations for Vision, Speech and Language

要約 現在の自己教師あり学習アルゴリズムはモダリティ固有であることが多く、大量の … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Efficient Self-supervised Learning with Contextualized Target Representations for Vision, Speech and Language はコメントを受け付けていません

Audio Tagging on an Embedded Hardware Platform

要約 畳み込みニューラル ネットワーク (CNN) は、さまざまな音声分類タスク … 続きを読む

カテゴリー: cs.AI, cs.SD, cs.SY, eess.AS, eess.SY | Audio Tagging on an Embedded Hardware Platform はコメントを受け付けていません

ATCO2 corpus: A Large-Scale Dataset for Research on Automatic Speech Recognition and Natural Language Understanding of Air Traffic Control Communications

要約 パーソナル アシスタント、自動音声認識装置、対話理解システムは、相互接続さ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | ATCO2 corpus: A Large-Scale Dataset for Research on Automatic Speech Recognition and Natural Language Understanding of Air Traffic Control Communications はコメントを受け付けていません

Unsupervised speech enhancement with deep dynamical generative speech and noise models

要約 この研究は、クリーン音声モデルとして動的変分オートエンコーダ (DVAE) … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Unsupervised speech enhancement with deep dynamical generative speech and noise models はコメントを受け付けていません