eess.AS」カテゴリーアーカイブ

Simple and Controllable Music Generation

要約 私たちは条件付き音楽生成のタスクに取り組みます。 圧縮された個別の音楽表現 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Simple and Controllable Music Generation はコメントを受け付けていません

Label Aware Speech Representation Learning For Language Identification

要約 言語認識などの非意味論的タスクに対する音声表現学習アプローチでは、分類子モ … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Label Aware Speech Representation Learning For Language Identification はコメントを受け付けていません

Zambezi Voice: A Multilingual Speech Corpus for Zambian Languages

要約 この作品では、ザンビア語のオープンソース多言語音声リソースである Zamb … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Zambezi Voice: A Multilingual Speech Corpus for Zambian Languages はコメントを受け付けていません

Handling the Alignment for Wake Word Detection: A Comparison Between Alignment-Based, Alignment-Free and Hybrid Approaches

要約 ウェイク ワード検出は、ほとんどのインテリジェント ホームおよびポータブル … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Handling the Alignment for Wake Word Detection: A Comparison Between Alignment-Based, Alignment-Free and Hybrid Approaches はコメントを受け付けていません

Topological Data Analysis for Speech Processing

要約 トポロジカル データ分析 (TDA) を音声分類問題と事前学習済み音声モデ … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS, math.AT | Topological Data Analysis for Speech Processing はコメントを受け付けていません

GigaST: A 10,000-hour Pseudo Speech Translation Corpus

要約 本稿では、大規模な擬似音声翻訳(ST)コーパスであるGigaSTを紹介しま … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | GigaST: A 10,000-hour Pseudo Speech Translation Corpus はコメントを受け付けていません

MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training

要約 自己教師あり学習 (SSL) は、視覚、テキスト、および音声の分野の大規模 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training はコメントを受け付けていません

Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding

要約 私たちは、大規模言語モデル (LLM) にビデオ内の視覚コンテンツと聴覚コ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS | Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding はコメントを受け付けていません

Simultaneous or Sequential Training? How Speech Representations Cooperate in a Multi-Task Self-Supervised Learning System

要約 自己教師ありアルゴリズムによる音声表現学習により、多くの下流タスクのパフォ … 続きを読む

カテゴリー: cs.LG, eess.AS | Simultaneous or Sequential Training? How Speech Representations Cooperate in a Multi-Task Self-Supervised Learning System はコメントを受け付けていません

On the Behavior of Intrusive and Non-intrusive Speech Enhancement Metrics in Predictive and Generative Settings

要約 ディープスピーチエンハンスメントの分野は、その誕生以来、スペクトル マッピ … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | On the Behavior of Intrusive and Non-intrusive Speech Enhancement Metrics in Predictive and Generative Settings はコメントを受け付けていません