eess.AS」カテゴリーアーカイブ

Extending Whisper with prompt tuning to target-speaker ASR

要約 対象話者自動音声認識 (ASR) は、複数の話者の重複した発話から対象話者 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Extending Whisper with prompt tuning to target-speaker ASR はコメントを受け付けていません

TOLD: A Novel Two-Stage Overlap-Aware Framework for Speaker Diarization

要約 最近、エンドツーエンドのニューラルダイアライゼーション (EEND) が導 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | TOLD: A Novel Two-Stage Overlap-Aware Framework for Speaker Diarization はコメントを受け付けていません

Self-supervised Adaptive Pre-training of Multilingual Speech Models for Language and Dialect Identification

要約 事前トレーニングされた Transformer ベースの音声モデルは、自動 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Self-supervised Adaptive Pre-training of Multilingual Speech Models for Language and Dialect Identification はコメントを受け付けていません

More than Vanilla Fusion: a Simple, Decoupling-free, Attention Module for Multimodal Fusion Based on Signal Theory

要約 バニラ フュージョン手法は、依然として主流のオーディオビジュアルタスクの大 … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | More than Vanilla Fusion: a Simple, Decoupling-free, Attention Module for Multimodal Fusion Based on Signal Theory はコメントを受け付けていません

Creating Spoken Dialog Systems in Ultra-Low Resourced Settings

要約 自動音声認識 (ASR) システムは、現在さまざまなアプリケーション、特に … 続きを読む

カテゴリー: cs.CL, cs.LG, eess.AS | Creating Spoken Dialog Systems in Ultra-Low Resourced Settings はコメントを受け付けていません

Deep Imbalanced Learning for Multimodal Emotion Recognition in Conversations

要約 会話におけるマルチモーダル感情認識 (MERC) の主なタスクは、テキスト … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Deep Imbalanced Learning for Multimodal Emotion Recognition in Conversations はコメントを受け付けていません

Cooperation Does Matter: Exploring Multi-Order Bilateral Relations for Audio-Visual Segmentation

要約 最近、オーディオビジュアル セグメンテーション (AVS) タスクが導入さ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.SD, eess.AS | Cooperation Does Matter: Exploring Multi-Order Bilateral Relations for Audio-Visual Segmentation はコメントを受け付けていません

Neural Text to Articulate Talk: Deep Text to Audiovisual Speech Synthesis achieving both Auditory and Photo-realism

要約 逐次データのディープラーニングの最近の進歩により、人間が話すリアルなビデオ … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Neural Text to Articulate Talk: Deep Text to Audiovisual Speech Synthesis achieving both Auditory and Photo-realism はコメントを受け付けていません

Seamless: Multilingual Expressive and Streaming Speech Translation

要約 現在の大規模な自動音声翻訳システムには、人間と人間の対話と比較して、機械を … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Seamless: Multilingual Expressive and Streaming Speech Translation はコメントを受け付けていません

Investigating the Design Space of Diffusion Models for Speech Enhancement

要約 拡散モデルは、画像生成文献において優れたパフォーマンスを示している新しいク … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Investigating the Design Space of Diffusion Models for Speech Enhancement はコメントを受け付けていません