cs.SD」カテゴリーアーカイブ

tinyCLAP: Distilling Constrastive Language-Audio Pretrained Models

要約 Contrastive Language-Audio Pretrainin … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | tinyCLAP: Distilling Constrastive Language-Audio Pretrained Models はコメントを受け付けていません

GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Accurate Speech Emotion Recognition

要約 対照的クロスモダリティ事前トレーニングは、最近さまざまな分野で目覚ましい成 … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Accurate Speech Emotion Recognition はコメントを受け付けていません

The effect of speech pathology on automatic speaker verification — a large-scale study

要約 データ駆動型音声処理の課題を乗り越える際の主なハードルの 1 つは、信頼で … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | The effect of speech pathology on automatic speaker verification — a large-scale study はコメントを受け付けていません

Audio classification with Dilated Convolution with Learnable Spacings

要約 学習可能な間隔を備えた拡張畳み込み (DCLS) は、バックプロパゲーショ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Audio classification with Dilated Convolution with Learnable Spacings はコメントを受け付けていません

Multi-channel Speech Separation Using Spatially Selective Deep Non-linear Filters

要約 複数の話者によるマルチチャンネル分離タスクでは、混合物からすべての個々の音 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Multi-channel Speech Separation Using Spatially Selective Deep Non-linear Filters はコメントを受け付けていません

Psychoacoustic Challenges Of Speech Enhancement On VoIP Platforms

要約 VoIP (Voice over Internet Protocol) 通 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Psychoacoustic Challenges Of Speech Enhancement On VoIP Platforms はコメントを受け付けていません

Speaker-Adapted End-to-End Visual Speech Recognition for Continuous Spanish

要約 さまざまな研究により、音声認識プロセス全体を通じて視覚的な手がかりが重要で … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS | Speaker-Adapted End-to-End Visual Speech Recognition for Continuous Spanish はコメントを受け付けていません

Unified Segment-to-Segment Framework for Simultaneous Sequence Generation

要約 同時シーケンス生成は、ストリーミング音声認識、同時機械翻訳、同時音声翻訳な … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Unified Segment-to-Segment Framework for Simultaneous Sequence Generation はコメントを受け付けていません

LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT

要約 LyricWhiz は、ロックやメタルなどの難しいジャンルでも、さまざまな … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT はコメントを受け付けていません

Influencer Videos: Unboxing the Mystique

要約 インフルエンサー マーケティングは、顧客にリーチするための非常に人気のある … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.SD, eess.AS | Influencer Videos: Unboxing the Mystique はコメントを受け付けていません