cs.SD」カテゴリーアーカイブ

Simple and Controllable Music Generation

要約 私たちは条件付き音楽生成のタスクに取り組みます。 圧縮された個別の音楽表現 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Simple and Controllable Music Generation はコメントを受け付けていません

Arabic Dysarthric Speech Recognition Using Adversarial and Signal-Based Augmentation

要約 自動音声認識 (ASR) は大幅に進歩しましたが、最先端の ASR システ … 続きを読む

カテゴリー: cs.CL, cs.SD | Arabic Dysarthric Speech Recognition Using Adversarial and Signal-Based Augmentation はコメントを受け付けていません

Label Aware Speech Representation Learning For Language Identification

要約 言語認識などの非意味論的タスクに対する音声表現学習アプローチでは、分類子モ … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Label Aware Speech Representation Learning For Language Identification はコメントを受け付けていません

Zambezi Voice: A Multilingual Speech Corpus for Zambian Languages

要約 この作品では、ザンビア語のオープンソース多言語音声リソースである Zamb … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Zambezi Voice: A Multilingual Speech Corpus for Zambian Languages はコメントを受け付けていません

Handling the Alignment for Wake Word Detection: A Comparison Between Alignment-Based, Alignment-Free and Hybrid Approaches

要約 ウェイク ワード検出は、ほとんどのインテリジェント ホームおよびポータブル … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Handling the Alignment for Wake Word Detection: A Comparison Between Alignment-Based, Alignment-Free and Hybrid Approaches はコメントを受け付けていません

Self-supervised Predictive Coding Models Encode Speaker and Phonetic Information in Orthogonal Subspaces

要約 自己教師あり音声表現は話者情報と音声情報の両方をエンコードすることが知られ … 続きを読む

カテゴリー: cs.CL, cs.SD | Self-supervised Predictive Coding Models Encode Speaker and Phonetic Information in Orthogonal Subspaces はコメントを受け付けていません

Topological Data Analysis for Speech Processing

要約 トポロジカル データ分析 (TDA) を音声分類問題と事前学習済み音声モデ … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS, math.AT | Topological Data Analysis for Speech Processing はコメントを受け付けていません

GigaST: A 10,000-hour Pseudo Speech Translation Corpus

要約 本稿では、大規模な擬似音声翻訳(ST)コーパスであるGigaSTを紹介しま … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | GigaST: A 10,000-hour Pseudo Speech Translation Corpus はコメントを受け付けていません

MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training

要約 自己教師あり学習 (SSL) は、視覚、テキスト、および音声の分野の大規模 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training はコメントを受け付けていません

Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding

要約 私たちは、大規模言語モデル (LLM) にビデオ内の視覚コンテンツと聴覚コ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS | Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding はコメントを受け付けていません