cs.SD」カテゴリーアーカイブ

Lip2Vec: Efficient and Robust Visual Speech Recognition via Latent-to-Latent Visual to Audio Representation Mapping

要約 視覚音声認識 (VSR) は、人間の専門家であっても、ビデオ シーケンスに … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Lip2Vec: Efficient and Robust Visual Speech Recognition via Latent-to-Latent Visual to Audio Representation Mapping はコメントを受け付けていません

ML-SUPERB: Multilingual Speech Universal PERformance Benchmark

要約 音声処理ユニバーサル パフォーマンス ベンチマーク (SUPERB) は、 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | ML-SUPERB: Multilingual Speech Universal PERformance Benchmark はコメントを受け付けていません

An Autoethnographic Exploration of XAI in Algorithmic Composition

要約 機械学習モデルは、民族音楽からクラシック音楽まで、さまざまなジャンルにわた … 続きを読む

カテゴリー: cs.AI, cs.HC, cs.SD | An Autoethnographic Exploration of XAI in Algorithmic Composition はコメントを受け付けていません

Improving Joint Speech-Text Representations Without Alignment

要約 昨年は、テキストと画像のドメインが一緒に表現されるクロスモーダル表現空間の … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Improving Joint Speech-Text Representations Without Alignment はコメントを受け付けていません

Deep Learning for Diverse Data Types Steganalysis: A Review

要約 ステガノグラフィーとステガナリシスは、情報セキュリティ分野の 2 つの相互 … 続きを読む

カテゴリー: cs.AI, cs.CR, cs.LG, cs.MM, cs.SD, eess.AS, eess.IV | Deep Learning for Diverse Data Types Steganalysis: A Review はコメントを受け付けていません

A Novel Self-training Approach for Low-resource Speech Recognition

要約 この論文では、低リソース設定における自動音声認識 (ASR) の自己学習ア … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | A Novel Self-training Approach for Low-resource Speech Recognition はコメントを受け付けていません

EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech Resynthesis

要約 最近の研究では、テキストではなく、自己教師形式で学習された低ビットレートの … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech Resynthesis はコメントを受け付けていません

AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining

要約 オーディオ生成には、音声、音楽、効果音など、さまざまなタイプのオーディオに … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS, eess.SP | AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining はコメントを受け付けていません

Intel Labs at Ego4D Challenge 2022: A Better Baseline for Audio-Visual Diarization

要約 このレポートでは、Ego4D Challenge 2022 のオーディオビ … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Intel Labs at Ego4D Challenge 2022: A Better Baseline for Audio-Visual Diarization はコメントを受け付けていません

STHG: Spatial-Temporal Heterogeneous Graph Learning for Advanced Audio-Visual Diarization

要約 このレポートでは、Ego4D Challenge 2023 のオーディオビ … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | STHG: Spatial-Temporal Heterogeneous Graph Learning for Advanced Audio-Visual Diarization はコメントを受け付けていません