「eess.AS」カテゴリーアーカイブ

A Comparative Study on E-Branchformer vs Conformer in Speech Recognition, Translation, and Understanding Tasks

投稿日: 2023年5月19日作成者: jarxiv

要約畳み込み拡張された Transformer の亜種である Conforme … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot Task Generalization

投稿日: 2023年5月19日作成者: jarxiv

要約私たちは、最近提案されたウェブスケールの音声モデル Whisper の新た … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

mdctGAN: Taming transformer-based GAN for speech super-resolution with Modified DCT spectra

投稿日: 2023年5月19日作成者: jarxiv

要約音声超解像度 (SSR) は、対応する低解像度 (LR) 音声から高解像度 … 続きを読む →

カテゴリー: cs.AI, eess.AS | コメントを受け付けていません

QPGesture: Quantization-Based and Phase-Guided Motion Matching for Natural Speech-Driven Gesture Generation

投稿日: 2023年5月19日作成者: jarxiv

要約人間の動作にはランダムなジッターがあるため、音声駆動のジェスチャ生成は非常 … 続きを読む →

カテゴリー: cs.CV, cs.HC, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities

投稿日: 2023年5月19日作成者: jarxiv

要約この研究では、無制限のモダリティに向けた一般表現モデルを構築するためのスケ … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Boosting Local Spectro-Temporal Features for Speech Analysis

投稿日: 2023年5月18日作成者: jarxiv

要約音声認識のコンテキストで電話の分類の問題を導入し、電話の分類に使用できる局 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Using a Large Language Model to Control Speaking Style for Expressive TTS

投稿日: 2023年5月18日作成者: jarxiv

要約音声コミュニケーションを成功させるには、適切な韻律が不可欠です。文脈に応 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

SoundStorm: Efficient Parallel Audio Generation

投稿日: 2023年5月17日作成者: jarxiv

要約効率的で非自己回帰的なオーディオ生成モデルである SoundStorm を … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

The Interpreter Understands Your Meaning: End-to-end Spoken Language Understanding Aided by Speech Translation

投稿日: 2023年5月17日作成者: jarxiv

要約エンドツーエンドの音声言語理解 (SLU) は、テキストと音声に関する現在 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Fast-FNet: Accelerating Transformer Encoder Models via Efficient Fourier Layers

投稿日: 2023年5月17日作成者: jarxiv

要約 Transformer ベースの言語モデルは、アテンションメカニズムを利 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.GL, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

A Comparative Study on E-Branchformer vs Conformer in Speech Recognition, Translation, and Understanding Tasks

Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot Task Generalization

mdctGAN: Taming transformer-based GAN for speech super-resolution with Modified DCT spectra

QPGesture: Quantization-Based and Phase-Guided Motion Matching for Natural Speech-Driven Gesture Generation

ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities

Boosting Local Spectro-Temporal Features for Speech Analysis

Using a Large Language Model to Control Speaking Style for Expressive TTS

SoundStorm: Efficient Parallel Audio Generation

The Interpreter Understands Your Meaning: End-to-end Spoken Language Understanding Aided by Speech Translation

Fast-FNet: Accelerating Transformer Encoder Models via Efficient Fourier Layers

最近の投稿

最近のコメント

アーカイブ

カテゴリー