cs.SD」カテゴリーアーカイブ

What do End-to-End Speech Models Learn about Speaker, Language and Channel Information? A Layer-wise and Neuron-level Analysis

要約 ディープ ニューラル ネットワークは本質的に不透明で、解釈が困難です。 手 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | What do End-to-End Speech Models Learn about Speaker, Language and Channel Information? A Layer-wise and Neuron-level Analysis はコメントを受け付けていません

LegoNN: Building Modular Encoder-Decoder Models

要約 最先端のエンコーダ/デコーダ モデル (例: 機械翻訳 (MT) や自動音 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | LegoNN: Building Modular Encoder-Decoder Models はコメントを受け付けていません

On the Effectiveness of Speech Self-supervised Learning for Music

要約 自己教師あり学習 (SSL) は、さまざまな音声および自然言語処理アプリケ … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | On the Effectiveness of Speech Self-supervised Learning for Music はコメントを受け付けていません

ProgGP: From GuitarPro Tablature Neural Generation To Progressive Metal Production

要約 シンボリック音楽生成の分野における最近の研究では、入力および出力表現として … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | ProgGP: From GuitarPro Tablature Neural Generation To Progressive Metal Production はコメントを受け付けていません

EchoVest: Real-Time Sound Classification and Depth Perception Expressed through Transcutaneous Electrical Nerve Stimulation

要約 世界中で 15 億人以上の人々が聴覚障害を抱えて暮らしています。 このよう … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS, eess.SP | EchoVest: Real-Time Sound Classification and Depth Perception Expressed through Transcutaneous Electrical Nerve Stimulation はコメントを受け付けていません

A Comparative Study of Self-Supervised Speech Representations in Read and Spontaneous TTS

要約 最近の研究では、標準的な 2 段階 TTS の表現媒体として、従来使用され … 続きを読む

カテゴリー: 68T05, cs.HC, cs.LG, cs.SD, eess.AS, I.2.6 | A Comparative Study of Self-Supervised Speech Representations in Read and Spontaneous TTS はコメントを受け付けていません

GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition

要約 対照学習ベースの事前トレーニング方法は、最近、さまざまな分野で目覚ましい成 … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition はコメントを受け付けていません

Task-Agnostic Structured Pruning of Speech Representation Models

要約 Wav2vec2、Hubert、WavLM などの自己教師付き事前トレーニ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Task-Agnostic Structured Pruning of Speech Representation Models はコメントを受け付けていません

Can Generative Large Language Models Perform ASR Error Correction?

要約 ASR エラー修正は、音声認識システムの後処理の重要な部分として機能し続け … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Can Generative Large Language Models Perform ASR Error Correction? はコメントを受け付けていません

VampNet: Music Generation via Masked Acoustic Token Modeling

要約 音楽の合成、圧縮、修復、バリエーションに対するマスクされた音響トークン モ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | VampNet: Music Generation via Masked Acoustic Token Modeling はコメントを受け付けていません