eess.AS」カテゴリーアーカイブ

Self-supervised Neural Factor Analysis for Disentangling Utterance-level Speech Representations

要約 wav2vec や HuBERT などの自己教師あり学習 (SSL) 音声 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Self-supervised Neural Factor Analysis for Disentangling Utterance-level Speech Representations はコメントを受け付けていません

Prompting and Adapter Tuning for Self-supervised Encoder-Decoder Speech Model

要約 プロンプトとアダプターのチューニングは、ファインチューニング (FT) 方 … 続きを読む

カテゴリー: cs.CL, eess.AS, eess.SP | Prompting and Adapter Tuning for Self-supervised Encoder-Decoder Speech Model はコメントを受け付けていません

UniverSLU: Universal Spoken Language Understanding for Diverse Classification and Sequence Generation Tasks with a Single Network

要約 最近の研究では、マルチタスク機能を備えた大規模な言語モデルを採用することで … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | UniverSLU: Universal Spoken Language Understanding for Diverse Classification and Sequence Generation Tasks with a Single Network はコメントを受け付けていません

Zero Resource Code-switched Speech Benchmark Using Speech Utterance Pairs For Multiple Spoken Languages

要約 自己監視型音声エンコーダのコードスイッチング機能を直接評価するために設計さ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Zero Resource Code-switched Speech Benchmark Using Speech Utterance Pairs For Multiple Spoken Languages はコメントを受け付けていません

Preserving Phonemic Distinctions for Ordinal Regression: A Novel Loss Function for Automatic Pronunciation Assessment

要約 自動発音評価 (APA) は、ある言語における第 2 言語 (L2) 学習 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Preserving Phonemic Distinctions for Ordinal Regression: A Novel Loss Function for Automatic Pronunciation Assessment はコメントを受け付けていません

Vocos: Closing the gap between time-domain and Fourier-based neural vocoders for high-quality audio synthesis

要約 最近のニューラル・ヴォコーディングの進歩は、主に時間領域で動作するGene … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Vocos: Closing the gap between time-domain and Fourier-based neural vocoders for high-quality audio synthesis はコメントを受け付けていません

Preserving Phonemic Distinctions for Ordinal Regression: A Novel Loss Function for Automatic Pronunciation Assessment

要約 自動発音評価(APA)は、ある言語の第二言語(L2)学習者の発音習熟度を定 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Preserving Phonemic Distinctions for Ordinal Regression: A Novel Loss Function for Automatic Pronunciation Assessment はコメントを受け付けていません

Wavelet Scattering Transform for Improving Generalization in Low-Resourced Spoken Language Identification

要約 音声言語識別(LID)でよく使われる特徴量、例えばmel-spectrog … 続きを読む

カテゴリー: cs.CL, eess.AS | Wavelet Scattering Transform for Improving Generalization in Low-Resourced Spoken Language Identification はコメントを受け付けていません

A Large-scale Dataset for Audio-Language Representation Learning

要約 AIコミュニティは、大規模なマルチモーダルデータセットに後押しされ、強力な … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | A Large-scale Dataset for Audio-Language Representation Learning はコメントを受け付けていません

Reproducing Whisper-Style Training Using an Open-Source Toolkit and Publicly Available Data

要約 大量のデータを使用した音声モデルの事前トレーニングは、目覚ましい成功を収め … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Reproducing Whisper-Style Training Using an Open-Source Toolkit and Publicly Available Data はコメントを受け付けていません