cs.SD」カテゴリーアーカイブ

Incorporating Class-based Language Model for Named Entity Recognition in Factorized Neural Transducer

要約 近年の音声認識におけるエンドツーエンド (E2E) モデルの目覚ましい進歩 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Incorporating Class-based Language Model for Named Entity Recognition in Factorized Neural Transducer はコメントを受け付けていません

CoLLD: Contrastive Layer-to-layer Distillation for Compressing Multilingual Pre-trained Speech Encoders

要約 大規模な自己監視型の事前トレーニング済み音声エンコーダは、音声認識および翻 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | CoLLD: Contrastive Layer-to-layer Distillation for Compressing Multilingual Pre-trained Speech Encoders はコメントを受け付けていません

L1-aware Multilingual Mispronunciation Detection Framework

要約 話者の母語 (L1) と非母語 (L2) の間の音韻の不一致は、発音の誤り … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | L1-aware Multilingual Mispronunciation Detection Framework はコメントを受け付けていません

Explaining Speech Classification Models via Word-Level Audio Segments and Paralinguistic Features

要約 eXplainable AI (XAI) の最近の進歩により、視覚、言語、 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Explaining Speech Classification Models via Word-Level Audio Segments and Paralinguistic Features はコメントを受け付けていません

The complementary roles of non-verbal cues for Robust Pronunciation Assessment

要約 発音評価システムの研究は、非ネイティブ (L2) 音声の音声および音韻論的 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | The complementary roles of non-verbal cues for Robust Pronunciation Assessment はコメントを受け付けていません

Echotune: A Modular Extractor Leveraging the Variable-Length Nature of Speech in ASR Tasks

要約 Transformer アーキテクチャは自動音声認識 (ASR) タスクに … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Echotune: A Modular Extractor Leveraging the Variable-Length Nature of Speech in ASR Tasks はコメントを受け付けていません

SingFake: Singing Voice Deepfake Detection

要約 歌声合成の台頭は、アーティストや業界関係者に、音声の不正使用をめぐる重大な … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | SingFake: Singing Voice Deepfake Detection はコメントを受け付けていません

Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer

要約 個別の自己教師あり表現を使用した直接音声対音声翻訳 (S2ST) は、驚く … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer はコメントを受け付けていません

CiwaGAN: Articulatory information exchange

要約 人間は調音器官を制御することで情報を音に符号化し、聴覚装置を使用して音から … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | CiwaGAN: Articulatory information exchange はコメントを受け付けていません

SeACo-Paraformer: A Non-Autoregressive ASR System with Flexible and Effective Hotword Customization Ability

要約 ホットワードのカスタマイズは、ASR 分野に残された懸念事項の 1 つです … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | SeACo-Paraformer: A Non-Autoregressive ASR System with Flexible and Effective Hotword Customization Ability はコメントを受け付けていません