cs.SD」カテゴリーアーカイブ

SLMGAN: Exploiting Speech Language Model Representations for Unsupervised Zero-Shot Voice Conversion in GANs

要約 近年、大規模な事前トレーニング済み音声言語モデル (SLM) により、テキ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | SLMGAN: Exploiting Speech Language Model Representations for Unsupervised Zero-Shot Voice Conversion in GANs はコメントを受け付けていません

FlexiAST: Flexibility is What AST Needs

要約 この作業の目的は、オーディオ スペクトログラム トランスフォーマー (AS … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | FlexiAST: Flexibility is What AST Needs はコメントを受け付けていません

BASS: Block-wise Adaptation for Speech Summarization

要約 エンドツーエンドの音声要約は、カスケード ベースラインよりもパフォーマンス … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | BASS: Block-wise Adaptation for Speech Summarization はコメントを受け付けていません

Multilingual Speech-to-Speech Translation into Multiple Target Languages

要約 Speech-to-Speech Translation (S2ST) に … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Multilingual Speech-to-Speech Translation into Multiple Target Languages はコメントを受け付けていません

Semi-supervised cross-lingual speech emotion recognition

要約 単一言語での音声感情認識 (SER) のパフォーマンスは、深層学習技術の使 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Semi-supervised cross-lingual speech emotion recognition はコメントを受け付けていません

Leveraging Pretrained ASR Encoders for Effective and Efficient End-to-End Speech Intent Classification and Slot Filling

要約 私たちは、音声認識 (ASR) で事前トレーニングされたエンコーダを使用し … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS | Leveraging Pretrained ASR Encoders for Effective and Efficient End-to-End Speech Intent Classification and Slot Filling はコメントを受け付けていません

The CHiME-7 DASR Challenge: Distant Meeting Transcription with Multiple Devices in Diverse Scenarios

要約 CHiME の課題は、堅牢な自動音声認識 (ASR) システムの開発と評価 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | The CHiME-7 DASR Challenge: Distant Meeting Transcription with Multiple Devices in Diverse Scenarios はコメントを受け付けていません

Replay to Remember: Continual Layer-Specific Fine-tuning for German Speech Recognition

要約 自動音声認識 (ASR) モデルは、教師なしまたは自己教師ありトレーニング … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Replay to Remember: Continual Layer-Specific Fine-tuning for German Speech Recognition はコメントを受け付けていません

Towards dialect-inclusive recognition in a low-resource language: are balanced corpora the answer?

要約 ASR システムは通常、話し言葉の「標準」向けに構築されており、非標準の方 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Towards dialect-inclusive recognition in a low-resource language: are balanced corpora the answer? はコメントを受け付けていません

Cross-Language Speech Emotion Recognition Using Multimodal Dual Attention Transformers

要約 音声感情認識 (SER) は最近進歩しているにもかかわらず、最先端のシステ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Cross-Language Speech Emotion Recognition Using Multimodal Dual Attention Transformers はコメントを受け付けていません