eess.AS」カテゴリーアーカイブ

Oracle Teacher: Leveraging Target Information for Better Knowledge Distillation of CTC Models

要約 知識蒸留 (KD) は、モデル圧縮の効果的な方法として最もよく知られており … 続きを読む

カテゴリー: cs.LG, eess.AS, eess.IV | Oracle Teacher: Leveraging Target Information for Better Knowledge Distillation of CTC Models はコメントを受け付けていません

Detection and classification of vocal productions in large scale audio recordings

要約 私たちは、大規模な自然音声録音から音声作品を抽出し、これらの音声作品を分類 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS, stat.AP | Detection and classification of vocal productions in large scale audio recordings はコメントを受け付けていません

There is more than one kind of robustness: Fooling Whisper with adversarial examples

要約 Whisper は、分布外の入力とランダム ノイズの両方に対して優れた堅牢 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | There is more than one kind of robustness: Fooling Whisper with adversarial examples はコメントを受け付けていません

A Compact End-to-End Model with Local and Global Context for Spoken Language Identification

要約 ContextNet アーキテクチャに基づいた音声言語識別 (LID) 用 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | A Compact End-to-End Model with Local and Global Context for Spoken Language Identification はコメントを受け付けていません

Lip2Vec: Efficient and Robust Visual Speech Recognition via Latent-to-Latent Visual to Audio Representation Mapping

要約 視覚音声認識 (VSR) は、人間の専門家であっても、ビデオ シーケンスに … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Lip2Vec: Efficient and Robust Visual Speech Recognition via Latent-to-Latent Visual to Audio Representation Mapping はコメントを受け付けていません

ML-SUPERB: Multilingual Speech Universal PERformance Benchmark

要約 音声処理ユニバーサル パフォーマンス ベンチマーク (SUPERB) は、 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | ML-SUPERB: Multilingual Speech Universal PERformance Benchmark はコメントを受け付けていません

Improving Joint Speech-Text Representations Without Alignment

要約 昨年は、テキストと画像のドメインが一緒に表現されるクロスモーダル表現空間の … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Improving Joint Speech-Text Representations Without Alignment はコメントを受け付けていません

Deep Learning for Diverse Data Types Steganalysis: A Review

要約 ステガノグラフィーとステガナリシスは、情報セキュリティ分野の 2 つの相互 … 続きを読む

カテゴリー: cs.AI, cs.CR, cs.LG, cs.MM, cs.SD, eess.AS, eess.IV | Deep Learning for Diverse Data Types Steganalysis: A Review はコメントを受け付けていません

A Novel Self-training Approach for Low-resource Speech Recognition

要約 この論文では、低リソース設定における自動音声認識 (ASR) の自己学習ア … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | A Novel Self-training Approach for Low-resource Speech Recognition はコメントを受け付けていません

EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech Resynthesis

要約 最近の研究では、テキストではなく、自己教師形式で学習された低ビットレートの … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech Resynthesis はコメントを受け付けていません