eess.AS」カテゴリーアーカイブ

3D-Speaker: A Large-Scale Multi-Device, Multi-Distance, and Multi-Dialect Corpus for Speech Representation Disentanglement

要約 音声発話内の相関関係のない情報を解きほぐすことは、音声コミュニティ内での重 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | 3D-Speaker: A Large-Scale Multi-Device, Multi-Distance, and Multi-Dialect Corpus for Speech Representation Disentanglement はコメントを受け付けていません

WACO: Word-Aligned Contrastive Learning for Speech Translation

要約 エンドツーエンド音声翻訳 (E2E ST) は、ソース音声をターゲット テ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | WACO: Word-Aligned Contrastive Learning for Speech Translation はコメントを受け付けていません

Cross-Language Speech Emotion Recognition Using Multimodal Dual Attention Transformers

要約 音声感情認識 (SER) は最近進歩しているにもかかわらず、最先端のシステ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Cross-Language Speech Emotion Recognition Using Multimodal Dual Attention Transformers はコメントを受け付けていません

Cross-Attention is Not Enough: Incongruity-Aware Hierarchical Multimodal Sentiment Analysis and Emotion Recognition

要約 感情的なコンピューティング タスクに複数のモダリティを融合することは、パフ … 続きを読む

カテゴリー: cs.CL, cs.MM, eess.AS, eess.IV | Cross-Attention is Not Enough: Incongruity-Aware Hierarchical Multimodal Sentiment Analysis and Emotion Recognition はコメントを受け付けていません

3D-Speaker: A Large-Scale Multi-Device, Multi-Distance, and Multi-Dialect Corpus for Speech Representation Disentanglement

要約 音声発話内の相関関係のない情報を解きほぐすことは、音声コミュニティ内での重 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | 3D-Speaker: A Large-Scale Multi-Device, Multi-Distance, and Multi-Dialect Corpus for Speech Representation Disentanglement はコメントを受け付けていません

Debiased Automatic Speech Recognition for Dysarthric Speech via Sample Reweighting with Sample Affinity Test

要約 深層学習に基づく自動音声認識システムは、主に経験的リスク最小化 (ERM) … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Debiased Automatic Speech Recognition for Dysarthric Speech via Sample Reweighting with Sample Affinity Test はコメントを受け付けていません

Iterative autoregression: a novel trick to improve your low-latency speech enhancement model

要約 ストリーミング モデルは、リアルタイム音声強調ツールの重要なコンポーネント … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Iterative autoregression: a novel trick to improve your low-latency speech enhancement model はコメントを受け付けていません

Large-scale unsupervised audio pre-training for video-to-speech synthesis

要約 ビデオ音声合成は、話者の無声ビデオから音声信号を再構築するタスクです。 こ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | Large-scale unsupervised audio pre-training for video-to-speech synthesis はコメントを受け付けていません

Sound Demixing Challenge 2023 Music Demixing Track Technical Report: TFC-TDF-UNet v3

要約 このレポートでは、サウンド デミキシング チャレンジ 2023 の音楽デミ … 続きを読む

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | Sound Demixing Challenge 2023 Music Demixing Track Technical Report: TFC-TDF-UNet v3 はコメントを受け付けていません

Addressing Cold Start Problem for End-to-end Automatic Speech Scoring

要約 自動音声採点/評価システムの統合は、第二言語スピーキング教育の重要な側面と … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Addressing Cold Start Problem for End-to-end Automatic Speech Scoring はコメントを受け付けていません