cs.SD」カテゴリーアーカイブ

A Comprehensive Study of the Current State-of-the-Art in Nepali Automatic Speech Recognition Systems

要約 本稿では、ネパール語の自動音声認識(ASR)の分野で行われた研究を調査する … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | A Comprehensive Study of the Current State-of-the-Art in Nepali Automatic Speech Recognition Systems はコメントを受け付けていません

ISPA: Inter-Species Phonetic Alphabet for Transcribing Animal Sounds

要約 従来、生体音響学では、動物の鳴き声の分析にスペクトログラムやフレームごとの … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD | ISPA: Inter-Species Phonetic Alphabet for Transcribing Animal Sounds はコメントを受け付けていません

Spiking Music: Audio Compression with Event Based Auto-encoders

要約 脳内のニューロンは、スパイクと呼ばれる時間厳守のイベントを通じて情報を伝達 … 続きを読む

カテゴリー: cs.LG, cs.NE, cs.SD, eess.AS | Spiking Music: Audio Compression with Event Based Auto-encoders はコメントを受け付けていません

Low-Resource Cross-Domain Singing Voice Synthesis via Reduced Self-Supervised Speech Representations

要約 本論文では、典型的な複数話者の音響モデルとして、テキストと音声データのみで … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Low-Resource Cross-Domain Singing Voice Synthesis via Reduced Self-Supervised Speech Representations はコメントを受け付けていません

How Paralingual are Paralinguistic Representations? A Case Study in Speech Emotion Recognition

要約 音声感情認識(SER)の分野では、事前学習モデル(PTM)によって大きな進 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | How Paralingual are Paralinguistic Representations? A Case Study in Speech Emotion Recognition はコメントを受け付けていません

BAT: Learning to Reason about Spatial Sounds with Large Language Models

要約 空間音推論は人間の基本的な能力であり、音に基づいて周囲の環境をナビゲートし … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | BAT: Learning to Reason about Spatial Sounds with Large Language Models はコメントを受け付けていません

An Analysis of the Variance of Diffusion-based Speech Enhancement

要約 拡散モデルは、生成音声強化のための強力なモデルであることが証明されました。 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | An Analysis of the Variance of Diffusion-based Speech Enhancement はコメントを受け付けていません

BATON: Aligning Text-to-Audio Model with Human Preference Feedback

要約 AI 生成コンテンツ (AIGC) の開発に伴い、テキスト音声変換モデルが … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | BATON: Aligning Text-to-Audio Model with Human Preference Feedback はコメントを受け付けていません

What Do Self-Supervised Speech and Speaker Models Learn? New Findings From a Cross Model Layer-Wise Analysis

要約 自己教師あり学習 (SSL) は、意味のある音声表現を学習するためにますま … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | What Do Self-Supervised Speech and Speaker Models Learn? New Findings From a Cross Model Layer-Wise Analysis はコメントを受け付けていません

Revisiting speech segmentation and lexicon learning with better features

要約 ラベルのない音声を単語のようなセグメントに分割する自己教師ありの方法を再検 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Revisiting speech segmentation and lexicon learning with better features はコメントを受け付けていません