eess.AS」カテゴリーアーカイブ

Matching Latent Encoding for Audio-Text based Keyword Spotting

要約 キーワード スポッティング (KWS) で音声とテキストの埋め込みを併用す … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Matching Latent Encoding for Audio-Text based Keyword Spotting はコメントを受け付けていません

Assessing Phrase Break of ESL Speech with Pre-trained Language Models and Large Language Models

要約 この研究では、事前トレーニング済み言語モデル (PLM) と大規模言語モデ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Assessing Phrase Break of ESL Speech with Pre-trained Language Models and Large Language Models はコメントを受け付けていません

The ART of Conversation: Measuring Phonetic Convergence and Deliberate Imitation in L2-Speech with a Siamese RNN

要約 音声収束とは、会話中の 2 人の対話者の自動的かつ無意識的な音声適応を指し … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | The ART of Conversation: Measuring Phonetic Convergence and Deliberate Imitation in L2-Speech with a Siamese RNN はコメントを受け付けていません

BabySLM: language-acquisition-friendly benchmark of self-supervised spoken language models

要約 音声表現を学習するための自己教師ありの技術は、人間によるラベルを必要とせず … 続きを読む

カテゴリー: cs.CL, eess.AS, stat.ML | BabySLM: language-acquisition-friendly benchmark of self-supervised spoken language models はコメントを受け付けていません

Two Stage Contextual Word Filtering for Context bias in Unified Streaming and Non-streaming Transducer

要約 E2E ASR システムでは、トレーニング データにあまり出現しないエンテ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Two Stage Contextual Word Filtering for Context bias in Unified Streaming and Non-streaming Transducer はコメントを受け付けていません

Simple and Controllable Music Generation

要約 私たちは条件付き音楽生成のタスクに取り組みます。 圧縮された個別の音楽表現 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Simple and Controllable Music Generation はコメントを受け付けていません

Label Aware Speech Representation Learning For Language Identification

要約 言語認識などの非意味論的タスクに対する音声表現学習アプローチでは、分類子モ … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Label Aware Speech Representation Learning For Language Identification はコメントを受け付けていません

Zambezi Voice: A Multilingual Speech Corpus for Zambian Languages

要約 この作品では、ザンビア語のオープンソース多言語音声リソースである Zamb … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Zambezi Voice: A Multilingual Speech Corpus for Zambian Languages はコメントを受け付けていません

Handling the Alignment for Wake Word Detection: A Comparison Between Alignment-Based, Alignment-Free and Hybrid Approaches

要約 ウェイク ワード検出は、ほとんどのインテリジェント ホームおよびポータブル … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Handling the Alignment for Wake Word Detection: A Comparison Between Alignment-Based, Alignment-Free and Hybrid Approaches はコメントを受け付けていません

Topological Data Analysis for Speech Processing

要約 トポロジカル データ分析 (TDA) を音声分類問題と事前学習済み音声モデ … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS, math.AT | Topological Data Analysis for Speech Processing はコメントを受け付けていません