eess.AS」カテゴリーアーカイブ

FunASR: A Fundamental End-to-End Speech Recognition Toolkit

要約 このペーパーでは、学術研究と産業アプリケーションの間のギャップを埋めるため … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | FunASR: A Fundamental End-to-End Speech Recognition Toolkit はコメントを受け付けていません

Self-supervised Fine-tuning for Improved Content Representations by Speaker-invariant Clustering

要約 自己教師あり音声表現モデルはさまざまなタスクで成功していますが、ラベルなし … 続きを読む

カテゴリー: cs.CL, eess.AS | Self-supervised Fine-tuning for Improved Content Representations by Speaker-invariant Clustering はコメントを受け付けていません

A Comparative Study on E-Branchformer vs Conformer in Speech Recognition, Translation, and Understanding Tasks

要約 畳み込み拡張された Transformer の亜種である Conforme … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | A Comparative Study on E-Branchformer vs Conformer in Speech Recognition, Translation, and Understanding Tasks はコメントを受け付けていません

Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot Task Generalization

要約 私たちは、最近提案されたウェブスケールの音声モデル Whisper の新た … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot Task Generalization はコメントを受け付けていません

mdctGAN: Taming transformer-based GAN for speech super-resolution with Modified DCT spectra

要約 音声超解像度 (SSR) は、対応する低解像度 (LR) 音声から高解像度 … 続きを読む

カテゴリー: cs.AI, eess.AS | mdctGAN: Taming transformer-based GAN for speech super-resolution with Modified DCT spectra はコメントを受け付けていません

QPGesture: Quantization-Based and Phase-Guided Motion Matching for Natural Speech-Driven Gesture Generation

要約 人間の動作にはランダムなジッターがあるため、音声駆動のジェスチャ生成は非常 … 続きを読む

カテゴリー: cs.CV, cs.HC, cs.MM, cs.SD, eess.AS | QPGesture: Quantization-Based and Phase-Guided Motion Matching for Natural Speech-Driven Gesture Generation はコメントを受け付けていません

ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities

要約 この研究では、無制限のモダリティに向けた一般表現モデルを構築するためのスケ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS | ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities はコメントを受け付けていません

Boosting Local Spectro-Temporal Features for Speech Analysis

要約 音声認識のコンテキストで電話の分類の問題を導入し、電話の分類に使用できる局 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Boosting Local Spectro-Temporal Features for Speech Analysis はコメントを受け付けていません

Using a Large Language Model to Control Speaking Style for Expressive TTS

要約 音声コミュニケーションを成功させるには、適切な韻律が不可欠です。 文脈に応 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Using a Large Language Model to Control Speaking Style for Expressive TTS はコメントを受け付けていません

SoundStorm: Efficient Parallel Audio Generation

要約 効率的で非自己回帰的なオーディオ生成モデルである SoundStorm を … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | SoundStorm: Efficient Parallel Audio Generation はコメントを受け付けていません