「cs.SD」カテゴリーアーカイブ

ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities

投稿日: 2023年5月19日作成者: jarxiv

要約この研究では、無制限のモダリティに向けた一般表現モデルを構築するためのスケ … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Boosting Local Spectro-Temporal Features for Speech Analysis

投稿日: 2023年5月18日作成者: jarxiv

要約音声認識のコンテキストで電話の分類の問題を導入し、電話の分類に使用できる局 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Using a Large Language Model to Control Speaking Style for Expressive TTS

投稿日: 2023年5月18日作成者: jarxiv

要約音声コミュニケーションを成功させるには、適切な韻律が不可欠です。文脈に応 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

SoundStorm: Efficient Parallel Audio Generation

投稿日: 2023年5月17日作成者: jarxiv

要約効率的で非自己回帰的なオーディオ生成モデルである SoundStorm を … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

The Interpreter Understands Your Meaning: End-to-end Spoken Language Understanding Aided by Speech Translation

投稿日: 2023年5月17日作成者: jarxiv

要約エンドツーエンドの音声言語理解 (SLU) は、テキストと音声に関する現在 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Low-complexity deep learning frameworks for acoustic scene classification using teacher-student scheme and multiple spectrograms

投稿日: 2023年5月17日作成者: jarxiv

要約この技術レポートでは、音響シーン分類 (ASC) のための低複雑性の深層学 … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Discrete Diffusion Probabilistic Models for Symbolic Music Generation

投稿日: 2023年5月17日作成者: jarxiv

要約ノイズ除去拡散確率モデル (DDPM) は、離散領域と連続領域の両方で高品 … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Listen, Denoise, Action! Audio-Driven Motion Synthesis with Diffusion Models

投稿日: 2023年5月17日作成者: jarxiv

要約拡散モデルは、表現力が高く、効率的にトレーニングできる確率モデルとして注目 … 続きを読む →

カテゴリー: 68T07, cs.CV, cs.GR, cs.HC, cs.LG, cs.SD, eess.AS, G.3 | コメントを受け付けていません

Uncertainty Estimation in Deep Speech Enhancement Using Complex Gaussian Mixture Models

投稿日: 2023年5月16日作成者: jarxiv

要約シングルチャネルのディープスピーチエンハンスメント手法では、多くの場合、精 … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Integrating Uncertainty into Neural Network-based Speech Enhancement

投稿日: 2023年5月16日作成者: jarxiv

要約時間周波数領域における教師ありマスキングアプローチは、ディープニューラ … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities

Boosting Local Spectro-Temporal Features for Speech Analysis

Using a Large Language Model to Control Speaking Style for Expressive TTS

SoundStorm: Efficient Parallel Audio Generation

The Interpreter Understands Your Meaning: End-to-end Spoken Language Understanding Aided by Speech Translation

Low-complexity deep learning frameworks for acoustic scene classification using teacher-student scheme and multiple spectrograms

Discrete Diffusion Probabilistic Models for Symbolic Music Generation

Listen, Denoise, Action! Audio-Driven Motion Synthesis with Diffusion Models

Uncertainty Estimation in Deep Speech Enhancement Using Complex Gaussian Mixture Models

Integrating Uncertainty into Neural Network-based Speech Enhancement

最近の投稿

最近のコメント

アーカイブ

カテゴリー