「eess.AS」カテゴリーアーカイブ

Vulnerability of Automatic Identity Recognition to Audio-Visual Deepfakes

投稿日: 2023年11月30日作成者: jarxiv

要約ディープフェイク検出の課題は、音声や視覚の研究者によって解決されるには程遠 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS, I.2.10 | コメントを受け付けていません

StyleCap: Automatic Speaking-Style Captioning from Speech Based on Speech and Language Self-supervised Learning Models

投稿日: 2023年11月29日作成者: jarxiv

要約我々は、音声に現れる話し方の自然言語記述を生成する手法、StyleCap … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

TODM: Train Once Deploy Many Efficient Supernet-Based RNN-T Compression For On-device ASR Models

投稿日: 2023年11月28日作成者: jarxiv

要約自動音声認識 (ASR) モデルは、デバイスに展開する前に、特定のハードウ … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

A Quantitative Approach to Understand Self-Supervised Models as Cross-lingual Feature Extractors

投稿日: 2023年11月28日作成者: jarxiv

要約この研究では、言語を超えたコンテキストで英語の自己教師あり学習 (SSL) … 続きを読む →

カテゴリー: cs.CL, eess.AS | コメントを受け付けていません

CheapNET: Improving Light-weight speech enhancement network by projected loss function

投稿日: 2023年11月28日作成者: jarxiv

要約ノイズ抑制とエコーキャンセルは音声強調において重要であり、スマートデバ … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

SER_AMPEL: A multi-source dataset for SER of Italian older adults

投稿日: 2023年11月27日作成者: jarxiv

要約この論文では、音声感情認識 (SER) 用のマルチソースデータセットであ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

tinyCLAP: Distilling Constrastive Language-Audio Pretrained Models

投稿日: 2023年11月27日作成者: jarxiv

要約 Contrastive Language-Audio Pretrainin … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Accurate Speech Emotion Recognition

投稿日: 2023年11月27日作成者: jarxiv

要約対照的クロスモダリティ事前トレーニングは、最近さまざまな分野で目覚ましい成 … 続きを読む →

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

The effect of speech pathology on automatic speaker verification — a large-scale study

投稿日: 2023年11月23日作成者: jarxiv

要約データ駆動型音声処理の課題を乗り越える際の主なハードルの 1 つは、信頼で … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Audio classification with Dilated Convolution with Learnable Spacings

投稿日: 2023年11月23日作成者: jarxiv

要約学習可能な間隔を備えた拡張畳み込み (DCLS) は、バックプロパゲーショ … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

Vulnerability of Automatic Identity Recognition to Audio-Visual Deepfakes

StyleCap: Automatic Speaking-Style Captioning from Speech Based on Speech and Language Self-supervised Learning Models

TODM: Train Once Deploy Many Efficient Supernet-Based RNN-T Compression For On-device ASR Models

A Quantitative Approach to Understand Self-Supervised Models as Cross-lingual Feature Extractors

CheapNET: Improving Light-weight speech enhancement network by projected loss function

SER_AMPEL: A multi-source dataset for SER of Italian older adults

tinyCLAP: Distilling Constrastive Language-Audio Pretrained Models

GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Accurate Speech Emotion Recognition

The effect of speech pathology on automatic speaker verification — a large-scale study

Audio classification with Dilated Convolution with Learnable Spacings

最近の投稿

最近のコメント

アーカイブ

カテゴリー