「eess.AS」カテゴリーアーカイブ

Unit-based Speech-to-Speech Translation Without Parallel Data

投稿日: 2023年5月25日作成者: jarxiv

要約我々は、ソース言語とターゲット言語間の並列データに依存しない教師なし音声対 … 続きを読む →

カテゴリー: cs.CL, eess.AS | コメントを受け付けていません

Improving the Gap in Visual Speech Recognition Between Normal and Silent Speech Based on Metric Learning

投稿日: 2023年5月24日作成者: jarxiv

要約この論文では、視覚音声認識 (VSR) における通常の音声と無音音声の間の … 続きを読む →

カテゴリー: cs.LG, eess.AS | コメントを受け付けていません

Modulation Extraction for LFO-driven Audio Effects

投稿日: 2023年5月23日作成者: jarxiv

要約フェイザー、フランジャー、コーラスなどの低周波発振器 (LFO) 駆動のオ … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Improving Isochronous Machine Translation with Target Factors and Auxiliary Counters

投稿日: 2023年5月23日作成者: jarxiv

要約自動吹き替え用に音声を翻訳するには、機械翻訳が等時性である必要があります。 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

A Training and Inference Strategy Using Noisy and Enhanced Speech as Target for Speech Enhancement without Clean Speech

投稿日: 2023年5月23日作成者: jarxiv

要約きれいな音声の欠如は、音声強調システムの開発にとって実際的な課題であり、ト … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

AudioToken: Adaptation of Text-Conditioned Diffusion Models for Audio-to-Image Generation

投稿日: 2023年5月23日作成者: jarxiv

要約近年、画像生成のパフォーマンスは大幅に向上しており、拡散モデルが中心的な役 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Sensing of inspiration events from speech: comparison of deep learning and linguistic methods

投稿日: 2023年5月22日作成者: jarxiv

要約呼吸用チェストベルトセンサーを使用して、呼吸数やその他の呼吸器の健康パラメ … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Recycle-and-Distill: Universal Compression Strategy for Transformer-based Speech SSL Models with Attention Map Reusing and Masking Distillation

投稿日: 2023年5月22日作成者: jarxiv

要約 HuBERT などのトランスフォーマーベースの音声自己教師あり学習 (SS … 続きを読む →

カテゴリー: cs.CL, cs.LG, eess.AS | コメントを受け付けていません

Application of Knowledge Distillation to Multi-task Speech Representation Learning

投稿日: 2023年5月22日作成者: jarxiv

要約 wav2vec 2.0 や HuBERT などのモデルアーキテクチャは、 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

North Sámi Dialect Identification with Self-supervised Speech Models

投稿日: 2023年5月22日作成者: jarxiv

要約北スミ (NS) 言語は、関連しているものの音韻、形態、語彙に違いがある … 続きを読む →

カテゴリー: cs.CL, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

Unit-based Speech-to-Speech Translation Without Parallel Data

Improving the Gap in Visual Speech Recognition Between Normal and Silent Speech Based on Metric Learning

Modulation Extraction for LFO-driven Audio Effects

Improving Isochronous Machine Translation with Target Factors and Auxiliary Counters

A Training and Inference Strategy Using Noisy and Enhanced Speech as Target for Speech Enhancement without Clean Speech

AudioToken: Adaptation of Text-Conditioned Diffusion Models for Audio-to-Image Generation

Sensing of inspiration events from speech: comparison of deep learning and linguistic methods

Recycle-and-Distill: Universal Compression Strategy for Transformer-based Speech SSL Models with Attention Map Reusing and Masking Distillation

Application of Knowledge Distillation to Multi-task Speech Representation Learning

North Sámi Dialect Identification with Self-supervised Speech Models

最近の投稿

最近のコメント

アーカイブ

カテゴリー